数据挖掘模拟卷_答案.docVIP

下载本文档

18
0
约2.48千字
约 4页
2017-08-24 发布于河南
举报
版权申诉

数据挖掘模拟卷_答案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据挖掘》模拟卷答案一、填空题（每格1分，共20分） 1、划分方法、层次方法、基于密度的方法。 2、星型模式、雪花模式和事实星座模式。 3、描述性的数据挖掘和预测性的数据挖掘。 4、不物化、全物化和部分物化。 5、数据库技术、统计学、机器学习。 6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。 7、数据立方体方法（或OLAP）和面向属性的归纳方法。二、单选题（请选择一个正确答案填入括号内，每题2分，共20分） 1、 C 2、___B_____ 3、___D_ ___ 4、____C____ 5、____C_____ 6、_____A___ 7、___B_____ 8、__B_____ 9、___E ____ 10、___C_____ 三、多选题（请选择两个或两个以上正确答案填入括号内，每题3分，共15分） 1、___ BD _ 2、___ BD __ 3、_ABCD_ 4、__ABC___ 5、_ABCD__ 四、简答题（共25分） 1．简述面向属性归纳的基本思想，并说明什么时候使用属性删除，什么时候使用属性概化。（7分）答：面向属性归纳的基本思想是：首先使用关系数据库查询收集任务相关的数据；然后通过考察任务相关数据中每个属性的不同值的个数，进行概化（通过属性删除或者属性概化）。聚集通过合并相等的广义元组，并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式，如图表或规则，提供用户。（3分）使用属性删除的情况：如果初始工作关系的一个属性上有大量的不同值，但是（1）在此属性上没有概化操作符，或（2）它的较高层概念用其他属性表示；（2分）使用属性概化的情况：如果初始工作关系的一个属性上有大量的不同值，并且该属性上存在着概化操作符。（2分） 2．为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。（6分）答：使用一个独立的数据仓库进行OLAP处理是为了以下目的： (1)提高两个系统的性能操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处理OLAP查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复杂的 OLAP查询, 多维视图，汇总等OLAP功能提供了优化。 (2)两者有着不同的功能操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降低OLAP的性能。 (3)两者有着不同的数据数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。 3．对于具有递减支持度的多层关联规则挖掘，分别都有哪些搜索策略？各有什么特点？（6分）答：具有递减支持度的多层关联规则挖掘中使用的搜索策略包括：逐层独立：完全的宽度搜索，没有频繁项集的背景知识用于剪枝。考察每一个节点，不管其父节点是否频繁。特点是条件很松，可能导致在低层考察大量非频繁的项，找出一些不重要的关联；（2分）层交叉k-项集过滤：一个第i层的k-项集被考察，当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强，有些有价值的模式可能被该方法过滤掉；（2分）层交叉单项过滤：一个第i层的项被考察，当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。（2分） 4．跟其他应用领域相比，在电子商务中进行数据挖掘有哪些优势？（6分）答：跟其他应用领域相比，在电子商务中进行数据挖掘的优势包括：电子商务提供海量的数据： “点击流”（Clickstreams）将会产生电子商务挖掘的大量数据；丰富的记录信息：良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息；干净的数据：从电子商务站点收集的都是电子数据，无需人工输入或者是从历史系统进行整合；研究成果容易转化：在电子商务中，很多知识发现都可以进行直接应用；投资收益容易衡量：所有数据都是电子化的，可以非常方便的生成各种报表和计算各种收益。五、算法题（共20分） 1、答：（1）Aprior算法的基本步骤包括：连接与剪枝（2）使用Apiori性质由L2产生C3 1 ．连接： C3=L2L2= {{A,C},{B,C},{B,E}{C,E}{{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2．使用Apriori性质剪枝：频繁项集的所有子集必须是频繁的，对候选项C3，我们可以删除其子集为非频繁的选项： {A,B,C}的2项子集是{A,B},{A,C},{B,C}，其中{A,B}不是L2的元素，所以删除这个选项； {A,C,E}的2项子集是{A,