开大题库网

国家开放大学历年真题库|作业答案|复习资料一站式下载平台

2025秋江苏开放大学数据采集与预处理第1单元测试(不计分)

分类: 上海开放大学 时间:2025-09-10 15:51:36 浏览:55次 评论:0
摘要:数据采集与预处理 - 第1单元测试(不计分) 课程名称:数据采集与预处理 发布教师:王小军 作业来源:第1学习单元 初识网络爬虫 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第1单元内容之后完成本次作业,并请在规定时间内提交,本次作业不计分。
国家开放大学作业考试答案

想要快速找到正确答案?

立即关注 国开搜题微信公众号,轻松解决学习难题!

国家开放大学
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

数据采集与预处理 - 第1单元测试(不计分)

课程名称:数据采集与预处理 发布教师:王小军 作业来源:第1学习单元 初识网络爬虫 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第1单元内容之后完成本次作业,并请在规定时间内提交,本次作业不计分。

单选题

1. 爬虫是手动请求万维网网站且提取网页数据的程序。 (分值:3.0分)

A. 错

B. 对

2. 爬虫爬取的是网站后台的数据。 (分值:3.0分)

A. 对

B. 错

3. 通用爬虫用于将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 (分值:3.0分)

A. 对

B. 错

4. 聚焦爬虫是“面向特定主题需求”的一种网络爬虫程序。 (分值:3.0分)

A. 对

B. 错

5. 通用爬虫可以选择性地爬取与预先定义好的主题相关的页面。 (分值:3.0分)

A. 错

B. 对

6. robots.txt文件一定要放置在一个站点的根目录下。 (分值:3.0分)

A. 对

B. 错

7. robots.txt文件中至少要有一条User-agent记录。 (分值:3.0分)

A. 错

B. 对

8. robots.txt文件没有实际的约束力。 (分值:3.0分)

A. 错

B. 对

渝粤文库 9. 爬虫爬取网页的行为都很正当,不会受到网站的任何限制。 (分值:3.0分)

A. 对

B. 错

10. 针对采用了反爬虫措施的网站,爬虫是无计可施的。 (分值:3.0分)

A. 对 渝粤教育

B. 错

填空题

1. 网络爬虫又被称为网页蜘蛛、_____。 (分值:3.0分)

2. 网络爬虫能够按照一定的_____,自动请求万维网网站并提取网络数据。 (分值:3.0分)

3. 根据使用场景的不同,网络爬虫可分为_____和_____两种。 (分值:6.0分)

4. 爬虫可以爬取互联网上_____的且可以访问到的网页信息。 (分值:3.0分)

5. _____是通用爬虫最重要的应用领域。 (分值:3.0分)

6. _____文件是搜索引擎访问网站时要查看的第一个文件。 (分值:3.0分)

7. 网站提供了_____文件,可以方便网站管理员通知爬虫遍历和更新网站的内容。 (分值:3.0分)

8. User-agent表示_____,用 国家开放大学 s://yktiku.com" title="成人学历">成人学历 于描述发出HTTP请求的终端信息。 (分值:3.0分)

广东开放大学

9. 为防止对方从访问量上认出爬虫的身份,可以_____访问网站的频率。 (分值:3.0分)

简答题/计算题

1. 什么是网络爬虫? (分值:8.0分)

2. 请简述通用爬虫 渝粤题库 和聚焦爬虫的区别。 (分值:8.0分)

3. 请简述使用网络爬虫的好处。 (分值:8.0分)

4. 请简述通用爬虫和聚焦爬虫抓取网页的流程。 (分值:8.0分)

5. 请举出一些针对反爬虫的应对策略。 (分值:8.0分)

文章目录


    相关文章
    评论留言请发表您的神机妙论……

    昵称

    邮箱

    地址

    私密评论
    评论列表(共有0条评论)