国开搜题
想要快速找到正确答案?
立即关注 国开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
广东开放大学数据挖掘与数据仓库(本)期末考试试卷与参考答案
数据挖掘与数据仓库(本科)期末复习学习笔记
课程概述
本课程主要围绕数据仓库与数据挖掘的核心理论、技术及应用展开,旨在培养学生掌握数据存储、整合、分析及挖掘的基本方法。课程内容涵盖数据仓库的架构设计、ETL流程、OLAP分析,以及数据挖掘的算法原理、模型构建和实际案例分析。期末考试将综合考察学生对知识点的理解与应用能力。
重点知识点梳理
一、数据仓库基础
1. 数据仓库的定义与特点
- 定义:面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
- 特点:
- 面向主题:按业务主题组织数据(如销售、客户)。
- 集成性:整合多个异构数据源(如ERP、CRM系统)。
- 相对稳定性:数据一旦入库,通常不会被修改。
- 时变性:记录数据的历史变化,支持趋势分析。
2. 数据仓库的三层架构
- 表示层(Presentation Layer):提供用户界面和查询工具(如Tableau、Power BI)。
- 中间层(Middle Layer):包括数据集市和OLAP服务器,负责多维数据分析。
- 数据存储层(Data Storage Layer):存储数据仓库的核心数据,通常采用星型模型或雪花模型。
3. ETL流程
- Extract(抽取):从多个数据源提取数据。
- Transform(转换):清洗、整合、标准化数据(如处理缺失值、消除冗余)。
- Load(加载):将数据导入数据仓库,支持增量加载与全量加载。
4. OLAP操作
- 上卷(Roll-up):聚合数据(如将月销售数据聚合为年销售数据)。
- 下钻(Drill-down):分解数据(如查看某产品在不同地区的销售明细)。
- 切片(Slice):选择特定维度的数据子集。
- 旋转(Pivot):改变数据展示的维度。
二、数据挖掘技术
1. 数据挖掘的流程
- 数据清洗:处理噪声、缺失值、异常值。
- 数据集成:合并多个数据源。
- 数据变换:数据归一化、离散化、特征提取。
- 数据建模:选择合适的算法(如分类、聚类、关联规则)。
- 模型评估:使用准确率、召回率、F1值等指标。
2. 分类算法
- 决策树:ID3、C4.5、CART算法,通过树结构进行分类。
- 朴素贝叶斯:基于贝叶斯定理的生成式模型,适用于高维数据。
- 支持向量机(SVM):通过寻找最优超平面实现分类,适合小样本高维数据。
3. 聚类算法
- K-means:迭代划分数据点到最近的聚类中心。
- 层次聚类:通过合并或分裂形成树状结构(如Agglomerative、Divisive)。
- DBSCAN:基于密度的聚类方法,可发现任意形状的簇。
4. 关联规则挖掘
- Apriori算法:通过频繁项集生成关联规则。
- 置信度(Confidence):衡量规则的可靠性(如`A→B`的置信度为`P(B|A)`)。
- 提升度(Lift):衡量规则的独立性(`Lift>1`表示正相关)。
5. 数据挖掘工具
- R语言:用于统计分析和可视化(如`arules`包实现关联规则)。
- Python:使用`scikit-learn`、`pandas`进行算法实现。
- Hadoop/Spark:处理大规模数据(如Spark MLlib)。
三、数据仓库与数据挖掘的关系
- 数据仓库是数据挖掘的基础:数据挖掘依赖数据仓库中经过清洗和整合的高质量数据。
- 数据挖掘为数据仓库提供价值:通过分析数据仓库中的数据,发现隐藏模式,支持决策。
- 典型应用场景:客户细分、销售预测、欺诈检测等。
难点解析
1. 维度建模(Dimensional Modeling)
- 事实表与维度表:事实表记录业务事件(如销售记录),维度表描述事件属性(如时间、产品)。
- 星型模型 vs 雪花模型:星型模型将维度表规范化,雪花模型将维度表扁平化。
- 难点:如何合理设计维度表以避免冗余,同时满足业务需求。
2. 聚类算法的参数选择
- K-means的K值选择:通过肘部法则(Elbow Method)或轮廓系数(Silhouette Score)确定最佳簇数。
- DBSCAN的ε和MinPts参数:需根据数据分布和噪声比例调整。
3. 关联规则的置信度与支持度
- 支持度(Support):项集在数据中的出现频率。
- 置信度与支持度的平衡:高支持度但低置信度的规则可能无实际意义,需结合业务场景分析。
复习建议
1. 重点章节回顾:
- 数据仓库的ETL流程(第3章)。
- 决策树与K-means算法(第5、6章)。
- 关联规则的应用(第7章)。
2. 实践操作:
- 使用Python/R实现K-means聚类和Apriori算法。
- 设计一个简单的数据仓库星型模型。
3. 真题分析:
- 重点关注简答题中的流程描述(如数据挖掘步骤)。
- 计算题常考分类算法的准确率计算、聚类的误差平方和(SSE)分析。
4. 案例总结:
- 电商客户细分案例(聚类+分类)。
- 超市购物篮分析(关联规则)。
模拟试题与参考答案
一、选择题
1. 数据仓库的核心功能是:
- A. 实时交易处理
- B. 存储历史数据并支持分析
- C. 管理关系型数据库
- D. 处理非结构化数据
答案:B
2. 以下不属于OLAP操作的是:
- A. 上卷
- B. 下钻
- C. 切片
- D. 数据清洗
答案:D
二、简答题
1. 简述数据仓库与传统数据库的区别。
- 答案:
- 数据仓库面向主题,传统数据库面向应用。
- 数据仓库数据集成且稳定,传统数据库支持事务处理,数据频繁更新。
- 数据仓库支持复杂分析,传统数据库优化快速查询。
2. 请列举三种常见的数据挖掘算法。
- 答案:决策树、K-means聚类、Apriori关联规则算法。
三、计算题
1. 已知某分类模型在测试集上的混淆矩阵如下,计算准确率和召回率。
| | 预测为正例 | 预测为负例 |
||||
| 实际为正例 | 80 | 20 |
| 实际为负例 | 10 | 90 |
- 答案:
- 准确率 = (80+90)/(80+20+10+90) = 170/200 = 85%
- 召回率 = 80/(80+20) = 80%
四、案例分析题
案例背景:某电商平台希望分析用户购买行为,发现高频商品组合。
问题:请设计一个数据挖掘方案,包括数据预处理步骤和算法选择。
参考答案:
1. 数据预处理:
- 提取用户购买记录(订单ID、商品ID、购买时间)。
- 过滤无效或重复数据。
- 将数据转换为事务-商品矩阵。
2. 算法选择:使用Apriori算法挖掘关联规则,设置支持度阈值为0.05,置信度阈值为0.6。
五、论述题
题目:比较数据仓库与数据湖的区别,并说明两者在企业中的应用场景。
参考答案:
- 区别:
- 结构:数据仓库结构化、模式固定;数据湖存储原始数据,结构灵活。
- 用途:数据仓库用于结构化分析(如报表);数据湖用于探索性分析
