国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
数据采集与预处理 - 第1单元测试(不计分)
课程名称:数据采集与预处理 发布教师:王小军 作业来源:第1学习单元 初识网络爬虫 作业满分:100.0分 发布时间:2025-07-10 作业要求:学习完第1单元内容之后完成本次作业,并请在规定时间内提交,本次作业不计分。
单选题
1. 爬虫是手动请求万维网网站且提取网页数据的程序。 (分值:3.0分)
A. 错
B. 对
2. 爬虫爬取的是网站后台的数据。 (分值:3.0分)
A. 对
B. 错
3. 通用爬虫用于将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 (分值:3.0分)
A. 对
B. 错
4. 聚焦爬虫是“面向特定主题需求”的一种网络爬虫程序。 (分值:3.0分)
A. 对
B. 错
5. 通用爬虫可以选择性地爬取与预先定义好的主题相关的页面。 (分值:3.0分)
A. 错
B. 对
6. robots.txt文件一定要放置在一个站点的根目录下。 (分值:3.0分)
A. 对
B. 错
7. robots.txt文件中至少要有一条User-agent记录。 (分值:3.0分)
A. 错
B. 对
8. robots.txt文件没有实际的约束力。 (分值:3.0分)
A. 错
B. 对
渝粤文库 9. 爬虫爬取网页的行为都很正当,不会受到网站的任何限制。 (分值:3.0分)
A. 对
B. 错
10. 针对采用了反爬虫措施的网站,爬虫是无计可施的。 (分值:3.0分)
A. 对 渝粤教育
B. 错
填空题
1. 网络爬虫又被称为网页蜘蛛、_____。 (分值:3.0分)
2. 网络爬虫能够按照一定的_____,自动请求万维网网站并提取网络数据。 (分值:3.0分)
3. 根据使用场景的不同,网络爬虫可分为_____和_____两种。 (分值:6.0分)
4. 爬虫可以爬取互联网上_____的且可以访问到的网页信息。 (分值:3.0分)
5. _____是通用爬虫最重要的应用领域。 (分值:3.0分)
6. _____文件是搜索引擎访问网站时要查看的第一个文件。 (分值:3.0分)
7. 网站提供了_____文件,可以方便网站管理员通知爬虫遍历和更新网站的内容。 (分值:3.0分)
8. User-agent表示_____,用 国家开放大学 s://yktiku.com" title="成人学历">成人学历 于描述发出HTTP请求的终端信息。 (分值:3.0分)
9. 为防止对方从访问量上认出爬虫的身份,可以_____访问网站的频率。 (分值:3.0分)
简答题/计算题
1. 什么是网络爬虫? (分值:8.0分)
2. 请简述通用爬虫 渝粤题库 和聚焦爬虫的区别。 (分值:8.0分)
3. 请简述使用网络爬虫的好处。 (分值:8.0分)
4. 请简述通用爬虫和聚焦爬虫抓取网页的流程。 (分值:8.0分)
5. 请举出一些针对反爬虫的应对策略。 (分值:8.0分)
