数据挖掘模拟卷_答案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《数据挖掘》模拟卷答案 一、填空题(每格1分,共20分) 1、划分方法、层次方法、基于密度的方法。 2、星型模式、雪花模式和事实星座模式。 3、描述性的数据挖掘和预测性的数据挖掘。 4、不物化、全物化和部分物化。 5、数据库技术、统计学、机器学习。 6、模式分层、集合分组分层、操作导出的分层和基于规则的分层。 7、数据立方体方法(或OLAP)和面向属性的归纳方法。 二、单选题(请选择一个正确答案填入括号内,每题2分,共20分) 1、 C 2、___B_____ 3、___D_ ___ 4、____C____ 5、____C_____ 6、_____A___ 7、___B_____ 8、__B_____ 9、___E ____ 10、___C_____ 三、多选题(请选择两个或两个以上正确答案填入括号内,每题3分,共15分) 1、___ BD _ 2、___ BD __ 3、_ABCD_ 4、__ABC___ 5、_ABCD__ 四、简答题(共25分) 1.简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。(7分) 答:面向属性归纳的基本思想是:首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。(3分) 使用属性删除的情况:如果初始工作关系的一个属性上有大量的不同值,但是(1)在此属性上没有概化操作符,或(2)它的较高层概念用其他属性表示;(2分) 使用属性概化的情况:如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。(2分) 2.为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。(6分) 答:使用一个独立的数据仓库进行OLAP处理是为了以下目的: (1)提高两个系统的性能 操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的 OLAP查询, 多维视图,汇总等OLAP功能提供了优化。 (2)两者有着不同的功能 操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。 (3)两者有着不同的数据 数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。 3.对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?(6分) 答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括: 逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;(2分) 层交叉k-项集过滤:一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;(2分) 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。(2分) 4.跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?(6分) 答:跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括: 电子商务提供海量的数据: “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据; 丰富的记录信息: 良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息; 干净的数据: 从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合; 研究成果容易转化: 在电子商务中,很多知识发现都可以进行直接应用; 投资收益容易衡量: 所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益。 五、算法题(共20分) 1、答: (1)Aprior算法的基本步骤包括:连接与剪枝 (2) 使用Apiori性质由L2产生C3 1 .连接: C3=L2L2= {{A,C},{B,C},{B,E}{C,E}{{A,C},{B,C},{B,E}{C,E}} = {{A,B,C},{A,C,E},{B,C,E}} 2.使用Apriori性质剪枝:频繁项集的所有子集必须是频繁的,对候选项C3,我们可以删除其子集为非频繁的选项: {A,B,C}的2项子集是{A,B},{A,C},{B,C},其中{A,B}不是L2的元素,所以删除这个选项; {A,C,E}的2项子集是{A,

文档评论(0)

yan666888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档