国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
江苏开放大学机器学习作业答案
无机器学习作业答案
机器学习
学校: 无
平台: 江苏开放大学
题目如下:
1. 1. 下列模型中属于回归模型的是?
A. 线性回归
B. ID3
C. 逻辑回归
D. DBSCAN
答案: 线性回归
2. 2. 下列关于软投票说法错误的是?
A. 投票表决器可以组合不同的基分类器
B. 可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均
C. 使用概率平均的⽅式来预测样本类别
D. 软投票过程中每个基分类器都预测⼀个类别
答案: 软投票过程中每个基分类器都预测⼀个类别
3. 3. 下列有关DBSCAN聚类算法的理解有误的⼀项是()
A. 不需要预先设置聚类数量k
B. 对数据集中的异常点敏感
C. 可以对任意形状的⾼密度数据集进⾏聚类,相对的, K-Means 之类的聚类算法⼀般只适⽤于凸数据 集
D. 调参相对于传统的K-Means 之类的聚类算法稍复杂,需要对距离阈值ϵ ,邻域样本数阈 值MinPts 联合调参,不同的参数组合对最后的聚类效果有较⼤影响
答案: 对数据集中的异常点敏感
4. 4. 下列有关词袋表示法的理解有误的是()
A. 不考虑词语出现的顺序,每个出现过的词汇单独作为⼀列特征
B. 不重复的特征词汇集合为词表
C. 将每个⽂本对应词表转化为特征向量
D. 仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量
答案: 仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量
5. 5. 下列有关特征抽取和特征选择的说法有误的⼀项是()
A. 特征抽取和特征选择是达到降维⽬的的两种途径
B. 特征选择的⽬标是从原始的d个特征中选择k个特征
C. PCA和LDA是特征选择的两种主要⽅法
D. 特征抽取的⽬标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间
答案: PCA和LDA是特征选择的两种主要⽅法
6. 6. 若集成模型中,预测值表示为,真实值为,则Adaboost的损失函数(Loss Function) 表示为()
A.
B.
C.
D.
答案:
7. 7. 以下四个算法中,哪个不属于Scikit-learn聚类的主要算法()
A. cluster.SpectralClustering
B. cluster.KMeans
C. cluster.AgglomerativeClustering
D. neighbors.KNeighborsRegressor
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
8. 8. 下列有关过滤式特征选择的说法错误的是()
A. 过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度, 留下相关程度靠前的特征
B. 过滤式特征选择的评价指标主要有Pearson 相关系数, 互信息, 距离相关度等;其中卡⽅检 验(chi2) ,F检验回归(f_regression) , 互信息回归(mutual_info_regression) ⽤于回归问 题,F检验分类(f_classif) , 互信息分类(mutual_info_classif) ⽤于分类问题
C. 过滤式特征选择的缺点是只评估了单个特征对结果的影响,没有考虑到特征之间的相关作⽤,可能 剔除有⽤的相关特征
D. Scikit-learn中实现过滤式特征选择的SelectKBest 类可以指定过滤个数, SelectPercentile 类 可以指定过滤百分⽐
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
9. 9. 箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?
A. 箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点
B. 四分位距IQR = 1.5 ( Q3-Q1 ),其中Q3为上四分位数, Q1为下四分位数
C. 箱中⾼于上边缘和低于下边缘的值为离群点
D. 箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
10. 10. 下图给出了三个节点的相关信息,请给出特征A1、A2及A3的特征重要性递减排序()
A. A3>A1>A2
B. A1>A2>A3
C. 所给信息不⾜。
D. A2>A3>A1
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
11. 11. 兰德系数和轮廓系数都是常⽤的聚类分析指标,以下对兰德系数和轮廓系数说法错误的是
A. 轮廓系数适⽤于实际类别信息未知的情况
B. 兰德系数取值为[0,1],越⼤聚类结果与真实情况越接近
C. 在聚类结果随机产⽣的情况下,兰德系数不能保证系数接近于0
D. 调整兰德系数取值范围为[-1,1],负数代表结果不好,越接近于0越好
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
12. 12. 下列有关ROC曲线与AUC的描述错误的是
A. AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积
B. ROC曲线可以⽤来考察模型的预测能⼒
C. ROC曲线越靠近(0, 1)证明模型整体预测能⼒越差
D. AUC的取值为[0.5, 1]
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
13. 13. 关于线性回归模型的正则化,下列选项叙述不正确的是:
A. 正则化的常⽤⽅法为岭回归和LASSO,主要区别在于岭回归的⽬标函数中添加了L2惩罚函数,⽽ LASSO的⽬标函数中添加的是L1惩罚函数
B. 在求解LASSO时,常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等
C. 对⽐岭回归和LASSO,岭回归更容易得到稀疏解
D. 正则化可以减⼩线性回归的过度拟合和多重共线性等问题
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
14. 14. 关于三种常⻅的稳健性回归⽅法--Huber回归、RANSAC回归和泰尔森回归,下列选项说法 正确的是:
A. 泰尔森回归⽐RANSAC回归在样本数量上的伸缩性(适应性)好
B. 从回归的速度上看,⼀般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归
C. Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失
D. ⼀般情况下,泰尔森回归可以更好地处理y⽅向的⼤值异常点
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
15. 15. 下列关于特征选择⽬的和原则的说法错误的是( )
A. ⽅差较⾼的特征应该被剔除
B. 与⽬标特征相关性⾼的特征应该优先被选择
C. 特征选择可以有效提升模型性能
D. 特征选择能有效降低特征维度,简化模型
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
16. 16. 下列有关轮廓系数的说法错误的是()
A. 某个样本的轮廓系数接近1,说明该样本聚类结果合理
B. 所有样本的轮廓系数均值为聚类结果的轮廓系数,是该聚类是否合理、有效的度量
C. 某个样本的轮廓系数近似为0,说明该样本在两个簇的边界上
D. 某个样本的轮廓系数的绝对值接近1,说明该样本聚类结果合理
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
17. 17. 以下程序语句有误的是()
A. clf=LogisticRegression(penalty='l1',random_state=10,solver='liblinear')
B. clf=LogisticRegression(penalty='l1',random_state=10,solver='lbfgs')
C. clf=LogisticRegression(penalty='l2',solver='newton-cg')
D. clf=LogisticRegression(penalty='l2',random_state=10,solver='liblinear')
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
18. 18. 将连续型特征离散化后再建⽴逻辑回归模型,这样做对模型有什么影响( )
A. 易于模型的快速迭代
B. 计算结果⽅便存储,容易扩展。
C. 起到简化逻辑回归模型的作⽤
D. 离散化后的特征对异常数据敏感
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
19. 19. 现有⼀个垃圾邮件分类问题,⽤N个关键词汇X1,X2,...,XN作为特征,将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量,m为垃圾邮件总数,M 为所有邮件总数,则下列加⼊Laplace平滑(平滑系数为1)的概率公式表示正确的是( )
A.
B.
C.
D.
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
20. 20. 下列哪些⽅法可以解决数据集的线性不可分问题( )
A. 软间隔SVM
B. 硬间隔SVM
C. 多项式核SVM
D. ⾼斯核SVM
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
21. 21. 分类正确率、混淆矩阵是评价分类模型效果的重要依据,下列编程语句有错误的是( ) (其 中x , y 是训练集和训练集标签,分别为DataFrame对象和Series对象)
A. 语句(1)
B. 语句(2)
C. 语句(3)
D. 语句(4)
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
22. 22. 以下关于集成模型中提升法(boosting)与装袋法(bagging)的⽐较,说法正确的是()
A. Boosting的学习器可并⾏训练,⽆顺序;Bagging的学习器需要串⾏进⾏,有顺序。
B. Boosting⼀般采⽤整个训练集训练学习器;Bagging则采⽤部分训练集,没⽤到的数据可⽤于测 试。
C. Boosting主要⽤于⽤于抑制过拟合;⽽Bagging主要⽤于优化弱分类器。
D. Adaboost是⼀种Boosting⽅法;Random Forest是⼀种Bagging⽅法。
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
23. 23. 下列关于缺失值处理的说法错误的是( )
A. 连续型特征可以使⽤众数来插补缺失值
B. 可以将缺失值作为预测⽬标建⽴模型进⾏预测,以此来插补缺失值
C. 离散型特征可以使⽤平均值来插补缺失值
D. 根据经验,可以⼿动对缺失值进⾏插补
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
24. 24. 下列关于软投票说法正确的是?(多选)
A. 可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均
B. 投票表决器可以组合不同的基分类器
C. 使用概率平均的⽅式来预测样本类别
D. 软投票过程中每个基分类器都预测⼀个类别
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
25. 25. 下列关于⽂本特征抽取中TF-IDF ⽅法理解正确的是()
A. TF-IDF ⽅法有效过滤掉不常⻅的词语
B. IDF 即逆⽂本频率:词频的权重调整系数
C. TF 即词频:某词汇在该⽂本中出现的频率
D. TF-IDF = TF * IDF
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
26. 26. 关于sklearn中的KNeighborsClassifier 算法类,下列说法正确的是()
A. 参数'n_neighbors' 的取值应该越⼤越好
B. 距离度量附属参数p 可设置为p =2“euclidean”(欧式距离)、p =1为“manhattan”(曼哈顿距离),默认为2
C. K近邻算法通过对以样本a为圆⼼,半径为k的圆内的训练样本进⾏多数投票来确定样本a的类别。
D. 当样本分布较乱,预测效果不好时,可将weights 设置为“distance”,将距离⽬标更近的近邻点赋 予更⾼的权重,来改善预测效果
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
27. 27. 下列有关包裹式和嵌⼊式特征选择的说法错误的是()
A. 嵌⼊式特征选择的思想是根据模型分析特征的重要性,常⽤正则化⽅式来做特征选择
B. Scikit-learn中实现嵌⼊式特征选择的类有SelectFromModel 、RFE 和RFECV
C. 包裹式特征选择的思想是把特征选择看做⼀个特征⼦集搜索问题, 筛选各个特征⼦集, ⽤模型评 估各个⼦集的效果
D. Scikit-learn中实现嵌⼊式特征选择的类SelectFromModel 必须与有feature_importances_ 或 者coef_ 属性的模型⼀起使⽤,如随机森林和逻辑回归
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
28. 28. 模型输⼊的特征通常需要是数值型的,所以需要将⾮数值型特征通过特征编码转换为数值特 征。下列选项对DataFrame对象df1 中的Make 字段进⾏特征编码,其中正确的是?
A. from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df1['Make']=le.fit_transform(df1["Make"])
B. df1['Make'] = df1['Make'].str.replace({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW ':5, 'Nissan':6})
C. df1['Make'] = df1['Make'].replace({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW':5, 'Nissan':6})
D. df1['Make'] = df1['Make'].map({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW':5, 'Ni ssan':6})
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
29. 29. 下列有关scikit-learn中TfidfVectorizer 类和CountVectorizer 类的说法错误的是()
A. 属性vocabulary_ :返回词汇表(字典型)
B. 参数stop_words :设置停⽤词,默认为None (没有),可设置为english 或list (⾃⾏给定)
C. 参数min_df :设定阈值,忽略频率⾼于此阈值的词汇,默认为1
D. 属性stop_words :返回停⽤词表
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
30. 1. 箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?
A. 箱中⾼于上边缘和低于下边缘的值为离群点
B. 四分位距IQR = 1.5 ( Q3-Q1 ),其中Q3为上四分位数, Q1为下四分位数
C. 箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点
D. 箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
31. 2. 下列关于Min-Max标准化的说法正确的是( )
A. 经Min-Max标准化后的特征的样本均值为0
B. 经Min-Max标准化后的特征的样本方差不确定
C. 经Min-Max标准化后的取值范围可以为任意实数
D. Min-Max标准化⽅法适⽤于特征的最⼤值或最⼩值未知,样本分布⾮常离散的情况
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
32. 3. 构建一个最简单的线性回归模型需要几个系数(只有一个特征)?
A. 1
B. 4
C. 3
D. 2
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
33. 4. 假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge 回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较大时,关于偏差(bias)和方差(variance),下列说法正确的是?
A. 若 λ 较大时,偏差增大,方差增大
B. 若 λ 较大时,偏差增大,方差减小
C. 若 λ 较大时,偏差减小,方差增大
D. 若 λ 较大时,偏差减小,方差减小
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
34. 5. 关于三种常见的稳健性回归方法—Huber回归、RANSAC回归和泰尔森回归,下列说法正确的是()
A. 泰尔森回归比RANSAC回归在样本数量上的伸缩性(适应性)好;
B. 一般情况下,泰尔森回归可以更好地处理y方向的大值异常点。
C. Huber回归可以更好地应对X方向的中等大小的异常值,但是这个属性将在高维情况下消失;
D. 从回归的速度上看,一般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归;
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
35. 6. 下列关于将连续型特征离散化后再建⽴逻辑回归模型的说法错误的是( )
A. 易于模型的快速迭代
B. 对异常数据有很强的鲁棒性,对异常数据不敏感
C. 计算结果存储不方便,不容易扩展。
D. 起到简化逻辑回归模型的作⽤
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
36. 7. 关于线性回归模型的正则化,下列选项叙述不正确的是:
A. 正则化的常⽤⽅法为岭回归和LASSO,主要区别在于岭回归的⽬标函数中添加了L2惩罚函数,⽽ LASSO的⽬标函数中添加的是L1惩罚函数
B. 正则化可以减⼩线性回归的过度拟合和多重共线性等问题
C. 对⽐岭回归和LASSO,岭回归更容易得到稀疏解
D. 在求解LASSO时,常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
37. 8. 假如我们使用 Lasso 回归来拟合数据集,该数据集输入特征有 100 个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大 10 倍(例如是特征 X1),然后用相同的正则化参数对 Lasso 回归进行修正。那么,下列说法正确的是?
A. 以上说法都不对
B. 无法确定特征 X1 是否被舍弃
C. 特征 X1 很可能被排除在模型之外
D. 特征 X1 很可能还包含在模型之中
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
38. 9. 下列关于特征选择⽬的和原则的说法正确的是( )
A. 特征选择能有效降低特征维度,简化模型
B. ⽅差较高的特征应该被剔除
C. 特征选择一般无法提升模型性能
D. 与⽬标特征相关性低的特征应该优先被选择
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
39. 10. 关于三种常⻅的稳健性回归⽅法--Huber回归、RANSAC回归和泰尔森回归,下列选项说法 正确的是:
A. ⼀般情况下,泰尔森回归可以更好地处理y⽅向的⼤值异常点
B. Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失
C. 泰尔森回归⽐RANSAC回归在样本数量上的伸缩性(适应性)好
D. 从回归的速度上看,⼀般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
40. 11. 假设你有以下数据:输入和输出都只有一个变量。使用线性回归模型(y=wx+b)来拟合数据。那么使用留一法(Leave-One Out)交叉验证得到的均方误差是多少? X(independentvariable) Y(dependent variable) 0 2 2 2 3 1
A. 10/27
B. 55/27
C. 49/27
D. 39/27
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
41. 12. 关于特征选择,下列对 Ridge 回归和 Lasso 回归说法正确的是?
A. Ridge 回归适用于特征选择
B. Lasso 回归适用于特征选择
C. 以上说法都不对
D. 两个都适用于特征选择
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
42. 13. 下列模型中属于回归模型的是?
A. 线性回归
B. DBSCAN
C. ID3
D. 逻辑回归
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
43. 14. 下列关于Z-Score标准化的说法不正确的是( )
A. 经Z-Score标准化后的特征的样本均值为0
B. 经Z-Score标准化后的特征的样本方差不确定
C. 经Z-Score标准化后的取值范围可以为任意实数
D. Z-Score标准化⽅法适⽤于特征的最⼤值或最⼩值未知,样本分布⾮常离散的情况
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
44. 15. 如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?
A. 测试样本误差始终为零
B. 不确定
C. 测试样本误差不可能为零
D. 以上答案都不对
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
45. 16. 下列哪些假设是我们推导线性回归参数时遵循的(多选)?
A. X 与 Y 有线性关系(多项式关系)
B. 误差一般服从 0 均值和固定标准差的正态分布
C. 模型误差在统计学上是独立的
D. X 是非随机且测量没有误差的
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
46. 17. 模型输⼊的特征通常需要是数值型的,所以需要将⾮数值型特征通过特征编码转换为数值特 征。下列选项对DataFrame对象df1 中的Make 字段进⾏特征编码,其中正确的是?
A. df1['Make'] = df1['Make'].replace({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW':5, 'Nissan':6})
B. from sklearn.preprocessing import LabelEncoder le = LabelEncoder() df1['Make']=le.fit_transform(df1["Make"])
C. df1['Make'] = df1['Make'].map({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW':5, 'Ni ssan':6})
D. df1['Make'] = df1['Make'].str.replace({'Toyota':1, 'Ford':2, 'Volvo':3, 'Audi':4, 'BMW ':5, 'Nissan':6})
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
47. 18. 若要⽤Scikit-learn完成线性回归任务,则需要使⽤Scikit-learn中的哪些函数?(多选)
A. fit
B. predict
C. LinearRegression
D. score
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
48. 19. 数据集Default_共有768条数据,10个字段,数据集已导入,保存在DataFrame对象data中,字段及说明如下: X1 Relative Compactness float64 相对紧性 X2 Surface Area float64 表面积 X3 Wall Area float64 墙面积 X4 Roof Area float64 顶板区 X5 Overall Height float64 总高度 X6 Orientation float64 取向 X7 Glazing Area float64 釉区 X8 Glazing Area Distribution float64 釉面分布 y1 Heating Load float64 加热负荷 y2 Cooling Load float64 冷却负荷 · 现已处理好数据和读取 · 请根据数据集的八个属性(由X1.X8表示),利用sklearn建立回归模型,预测出两个响应(由y1和y2表示)。其中训练集为X_train(75%),训练集标签为y_train,测试集为X_test(25%),测试集标签y_test,类型为DataFrame · 请使用训练集训练模型,并调用.mean_squared_error方法对X_test的预测结果作出评价,保存在变量model_eval中 正误判定变量:model_eval 开始答题: # 导入相关的包 import pandas as pd from sklearn import model_selection from sklearn.linear_model import LinearRegression from sklearn import metrics # 读取数据 data = pd.read_csv('Default_.csv') X = data[['X1', 'X2', 'X3', 'X4', 'X5', 'X6', 'X7', 'X8']] y = data[['Y1', 'Y2']] # 划分训练集与测试集 X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size= , random_state=1) # 线性回归模型 lr = LinearRegression() lr.fit( , y_train) # 模型评价,利用model_eval y_predict = lr.predict( ) model_eval = metrics.mean_squared_error(y_test, y_predict) model_eval
答案:请关注【江开搜题】微信公众号,发送题目获取正确答案。
如果觉得文章对您有用,请随意打赏。
您的支持是我们继续创作的动力!
微信扫一扫
支付宝扫一扫