开大题库网

国家开放大学历年真题库|作业答案|复习资料一站式下载平台

2025秋江苏开放大学数据采集与预处理第三次形考作业(占总成绩10%)

分类: 上海开放大学 时间:2025-09-03 00:16:39 浏览:52次 评论:0
摘要:数据采集与预处理第三次形考作业(占总成绩10%) 课程名称: 数据采集与预处理 发布人: 王小军 来源: 第5学习单元 数据预处理 满分: 100.0 发布时间: 2025-07-10 作业要求: 学习完第4、5单元内容之后必须完成本次作业,并请在规定时间内提交,本次作业占考核总成绩的10%。
国家开放大学作业考试答案

想要快速找到正确答案?

立即关注 国开搜题微信公众号,轻松解决学习难题!

国家开放大学
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

数据采集与预处理第三次形考作业(占总成绩10%)

课程名称: 数据采集与预处理 发布人: 王小军 来源: 第5学习单元 数据预处理 满分: 100.0 发布时间: 2025-07-10 作业要求: 学习完第4、5单元内容之后必须完成本次作业,并请在规定时间内提交,本次作业占考核总成绩的10%。

单选题

1. 下列选项中,描述不正确的是( )。 (分值: 3.0)

A. 数据清洗的目的是为了提高数据质量

B. concat()函数可以沿着一条轴将多个对象进行堆叠

C. 可使用drop_duplicates()方法删除重复数据

D. 异常值一定要删除

2. 下列选项中,描述不正确是( )。 (分值: 3.0)

A. merge()函数可以根据一个或多个键将不同的DataFrame进行合并

B. concat()函数可以沿着一条轴将多个对象进行堆叠

C. 可以使用renam 渝粤教育 e()方法对索引进行重命名操作< 渝粤题库 /p>

D. unstack()方法可以将列索引旋转为行索引

3. 请阅读下面一段程序:import numpy as npimport pandas as pdser_obj 广东开放大学 = pd.Series([4, np.nan, 6, 5, -3, 2])ser_obj.sort_values()执行上述程序后,最终输出的结果为( )。 (分值: 3.0)

A. 4   -3.05    2.00    4.03    5.02    6.01    NaN

B. 5      2.00      4.03      5.02      6.04      -3.01      NaN

C. 0      4.01   NaN2      6.03   5.04   -3.05      2.0

D. 1     NaN2      6.03      5.00   4.05      2.04      -3.0

4. 下列说法中,关于清洗重复值的说法正确的是( ) (分值: 3.0)

A. 清洗重复值的基本思想是“合并”

B. 清洗重复值的基本思想是“排序和合井”

C. 清洗重复值的基本思想是“分而合之”

D. 清洗重复值的基本 渝粤文库 思想是“排序”

5. 请阅读下面一段程序:from pandas import Seriesimport pandas as pdfrom numpy import NaNseries_obj = Series([None, 4, NaN])pd.isNone(series_obj)执行上述程序后,最终输出的结果为( )。 (分值: 3.0)

A. 0   True1   True2   False

B. 0   True1   False2  True

C. 0  False1  True2  True

D. 0  True1  True2   True

6. 下列选项中,可以删除缺失值或空值的 成人学历 是( )。 (分值: 3.0)

A. dropna()

B. fillna()

C. notNone()

D. isNone()

7. 下列说法错误的是( ) (分值: 3.0)

A. 必须删除异常值

B. 对数据进⾏标准化,消除量纲的影响

C. 可以对缺失值进⾏插补

D. 数据离散化是⼀种数据转换的⽅式

8. 下列选项表述错误的是( ) (分值: 3.0)

A. 数据的初步处理是对数据进⾏整合、分组等操作

B. 检测异常值的⽅法可以基于统计、距离、密度、模型等

C. 数据清洗包括缺失值处理、异常值处理、数据转换等⼏个⽅⾯

D. 缺失值最好的处理⽅式是直接删除

9. 下列选项中,( )是评价数据质量的核心准则。 (分值: 3.0)

A. 适用性

B. 简洁性

C. 完整性

D. 准确性

10. 下列选项属于名义型特征的是( ) (分值: 3.0)

A. 景点名称={天坛,北海,故宫、⾹⼭}

B. 质量⽔平={⼀级,⼆级,三级,四级}

C. 半径={7.64,7.44,7.23,7.39}

D. 成绩={88,92,83,95}

简答题/计算题

1. 请简述数据预处理的常用操作。 (分值: 12.0)

2. 简述数据清洗的基本流程。 (分值: 12.0)

3. 现有如下图所示的两组数据,其中 A组中B列数据存在缺失值,并且该列数据为int类型,B组中的数据均为str类型。接下来,请对这些数据进行以下操作:(1)使用DataFrame创建这两组数据。(2)现在需要使用B组中的数据对A组中的缺失值 国家开放大学 进行填充并保持数据类型一致。(3)将合并后A组中索引名为key的索引重命名为D。请将程序写在下面的文本框内。 (分值: 36.0)

文章目录


    相关文章
    评论留言请发表您的神机妙论……

    昵称

    邮箱

    地址

    私密评论
    评论列表(共有0条评论)