武汉大学研究生课程-数据挖掘-2015级研究生试题.docVIP

下载本文档

58
0
约3.64千字
约 5页
2021-07-10 发布于山东
举报
版权申诉

武汉大学研究生课程-数据挖掘-2015级研究生试题.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

武汉大学计算机学院 2015 级研究生“数据仓库和数据挖掘”课程期末考试试题要求：所有的题目的解答均写在答题纸上，需写清楚题目的序号。每张答题纸都要写上姓名和学号。一、单项选择题（每小题 2 分，共 20 分） 1、下面关于数据仓库的叙述中（ B ）是错误的。 A.OLAP 分为 ROLAP 、MOLAP 和 HOLAP 星型模式下的维表是规范化的，而雪花模式下的不需要规范化 C.在查询效率方面，星型模式效率更高 D.在事实星座模式中有多个事实表，且它们共享相同的维表 2、下面关于维的叙述中（ C）是错误的。维是人们观察数据的特定角度维的层次性是由观察数据细致程度不同造成的 C.“某年某月某日”是时间维的层次错 (“某年某月某日”是在时间维上位置的描述) D.“月、季、年”是时间维的层次对（日、月、季、年是时间维的层次） 3、可以对按季度汇总的销售数据进行（ B ），来观察按月汇总的数据。 A. 上卷 B.下钻 C.切片 D.切块 4、可以对按城市汇总的销售数据进行（ A ），来观察按国家汇总的数据。 A. 上卷 B.下钻 C.切片 D.切块 5、将原始数据进行集成和变换等处理是在以下（ C）步骤的任务。 A. 频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 6、当不知道数据所带标签时，可以使用（ B）技术促使带同类标签的数据与带其他标签的数据相分离。 A. 分类 B.聚类 C.关联分析 D.隐马尔可夫链 7、建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的（ C）任务。 A. 根据内容检索 B.建模描述 C.预测建模 D. 寻找模式和规则 8、利用信息增益方法作为属性选择度量建立决策树时，已知某训练样本集的 4 个条件属性的信息增益分别为： G(收入 )=0.940 位， G(职业 )=0.151 位， G(年龄 )=0.780 位， G(信誉)=0.048 位，则应该选择（ A ）属性作为决策树的测试属性。选信息增益最大的 A. 收入 B.职业 C.年龄 D.信誉 9、以下关于前馈神经网络的叙述中正确的是（ C）。 1 A. 前馈神经网络只能有 3 层错 B. 前馈神经网络中存在反馈错 C.前馈神经网络中每一层只接受来自前一层单元的输入D.以上都是正确的 10、以下（ A ）不是影响聚类算法结果的主要因素。 A. 已知类别的样本的质量 B.聚类结束条件 C.描述属性的选取 D. 对象的相似性度量二、（ 20 分）假定某大学教务部门已经建立有教务管理系统，现在要创建一个数据仓库，至少包含以下分析功能：（ 1）分析全校各个专业各个省份学生的基础课程成绩为优秀的人数情况。（ 2）分析全校各个专业中年龄在 16 岁以下学生的人数情况。 3）分析全校各个学院所有课程的不及格的人数情况。完成如下任务： 1）根据你的思考设计该数据仓库的模式图，包含每个维表和事实表的结构。（15 分）（ 2）指出你设计的数据仓库属于哪种模式。（ 5 分）三、（ 20 分）某个食品连锁店每周的事务记录如表 1 所示，每个事务表示在一项收款机业务中卖出的商品项集，假定 min_sup=40% ， min_conf=40% ，使用 Apriori 算法生成的强关联规则。见 ppt 5 章-例（ apriori 算法）表 1 一个事务记录表事务项集 1 面包、果冻、花生酱 2 面包、花生酱 3 面包、牛奶、花生酱 4 啤酒、面包 5 啤酒、牛奶解：（ 1）由 I={ 面包、果冻、花生酱、牛奶、啤酒 } 的所有项目直接产生 1-候选 C1，计算其支持度，取出支持度小于 supmin 的项集，形成 1-频繁集 L1 ，如下表所示：项集 C1 支持度项集 L1 支持度 {面包} 4/5 {面包} 4/5 {花生酱 } 3/5 {花生酱} 3/5 {牛奶} 2/5 {牛奶} 2/5 {啤酒} 2/5 {啤酒} 2/5 组合连接 L1 中的各项目，产生2-候选集 C2 ，计算其支持度，取出支持度小于 supmin 的项集，形成 2-频繁集 L2，如下表所示： 2 项集 C2 支持度项集 L2 支持度 { 面包、花生酱 } 3/5 { 面包、花生酱 } 3/5 至此，所有频繁集都被找到，算法结束，所以， confidence（ { 面包 } → { 花生酱 } ） =（4/5 ）/（3/5） =4/3 confmin confidence（{ 花生酱 } →{ 面包 } ） =（3/5 ）/（4/5 ）=3/4 confmin 所以，关联规则 { 面包 } → { 花生酱 } 、 { 花生酱 } → { 面包 } 均是强关联规则。