国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
数据采集与预处理第三次形考作业(占总成绩10%)
课程名称: 数据采集与预处理 发布人: 王小军 来源: 第5学习单元 数据预处理 满分: 100.0 发布时间: 2025-07-10 作业要求: 学习完第4、5单元内容之后必须完成本次作业,并请在规定时间内提交,本次作业占考核总成绩的10%。
单选题
1. 下列选项中,描述不正确的是( )。 (分值: 3.0)
A. 数据清洗的目的是为了提高数据质量
B. concat()函数可以沿着一条轴将多个对象进行堆叠
C. 可使用drop_duplicates()方法删除重复数据
D. 异常值一定要删除
2. 下列选项中,描述不正确是( )。 (分值: 3.0)
A. merge()函数可以根据一个或多个键将不同的DataFrame进行合并
B. concat()函数可以沿着一条轴将多个对象进行堆叠
C. 可以使用renam 渝粤教育 e()方法对索引进行重命名操作< 渝粤题库 /p>
D. unstack()方法可以将列索引旋转为行索引
3. 请阅读下面一段程序:import numpy as npimport pandas as pdser_obj 广东开放大学 = pd.Series([4, np.nan, 6, 5, -3, 2])ser_obj.sort_values()执行上述程序后,最终输出的结果为( )。 (分值: 3.0)
A. 4 -3.05 2.00 4.03 5.02 6.01 NaN
B. 5 2.00 4.03 5.02 6.04 -3.01 NaN
C. 0 4.01 NaN2 6.03 5.04 -3.05 2.0
D. 1 NaN2 6.03 5.00 4.05 2.04 -3.0
4. 下列说法中,关于清洗重复值的说法正确的是( ) (分值: 3.0)
A. 清洗重复值的基本思想是“合并”
B. 清洗重复值的基本思想是“排序和合井”
C. 清洗重复值的基本思想是“分而合之”
D. 清洗重复值的基本 渝粤文库 思想是“排序”
5. 请阅读下面一段程序:from pandas import Seriesimport pandas as pdfrom numpy import NaNseries_obj = Series([None, 4, NaN])pd.isNone(series_obj)执行上述程序后,最终输出的结果为( )。 (分值: 3.0)
A. 0 True1 True2 False
B. 0 True1 False2 True
C. 0 False1 True2 True
D. 0 True1 True2 True
6. 下列选项中,可以删除缺失值或空值的 成人学历 是( )。 (分值: 3.0)
A. dropna()
B. fillna()
C. notNone()
D. isNone()
7. 下列说法错误的是( ) (分值: 3.0)
A. 必须删除异常值
B. 对数据进⾏标准化,消除量纲的影响
C. 可以对缺失值进⾏插补
D. 数据离散化是⼀种数据转换的⽅式
8. 下列选项表述错误的是( ) (分值: 3.0)
A. 数据的初步处理是对数据进⾏整合、分组等操作
B. 检测异常值的⽅法可以基于统计、距离、密度、模型等
C. 数据清洗包括缺失值处理、异常值处理、数据转换等⼏个⽅⾯
D. 缺失值最好的处理⽅式是直接删除
9. 下列选项中,( )是评价数据质量的核心准则。 (分值: 3.0)
A. 适用性
B. 简洁性
C. 完整性
D. 准确性
10. 下列选项属于名义型特征的是( ) (分值: 3.0)
A. 景点名称={天坛,北海,故宫、⾹⼭}
B. 质量⽔平={⼀级,⼆级,三级,四级}
C. 半径={7.64,7.44,7.23,7.39}
D. 成绩={88,92,83,95}
简答题/计算题
1. 请简述数据预处理的常用操作。 (分值: 12.0)
2. 简述数据清洗的基本流程。 (分值: 12.0)
3. 现有如下图所示的两组数据,其中 A组中B列数据存在缺失值,并且该列数据为int类型,B组中的数据均为str类型。接下来,请对这些数据进行以下操作:(1)使用DataFrame创建这两组数据。(2)现在需要使用B组中的数据对A组中的缺失值 国家开放大学 进行填充并保持数据类型一致。(3)将合并后A组中索引名为key的索引重命名为D。请将程序写在下面的文本框内。 (分值: 36.0)
