- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(完整word版)数据挖掘题目及答案
一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联络是什么?数据仓库是一个面对主题的〔Subject Oriented〕、集成的〔Integrate〕、相对稳定的〔Non-Volatile〕、反映历史改变〔Time Variant〕的数据集合,用于支持管理决策。特点:1、面对主题操作型数据库的数据组织面对事务处理任务,各个业务系统之间各自分别,而数据仓库中的数据是根据肯定的主题域进展组织的。2、集成的数据仓库中的数据是在对原有分散的数据库数据抽取、清理的根底上经过系统加工、汇总和整理得到的,必需消退源数据中的不全都性,以保证数据仓库内的信息是关于整个企业的全都的全局信息。3、相对稳定的数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般状况下将被长期保存,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史改变数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开头应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的进展历程和将来趋势做出定量分析和预报。所谓基于数据库的学问发觉〔KDD〕是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的形式的非平凡过程。数据仓库为KDD供应了数据环境,KDD从数据仓库中提取有效的,可用的信息二、数据库有4笔交易。设minsup=60%,minconf=80%。TID DATE ITEMS_BOUGHTT100 3/5/2009 {A, C, S, L}T200 3/5/2009 {D, A, C, E, B}T300 4/5/2010 {A, B, C}T400 4/5/2010 {C, A, B, E}用法Apriori算法找出频繁项集,列出全部关联规章。解:已知最小支持度为60%,最小置信度为80%1〕第一步,对事务数据库进展一次扫描,计算出D中所包含的每个工程出现的次数,生成候选1-项集的集合C1。2〕其次步,依据设定的最小支持度,从C1中确定频繁1-项集L1。3〕第三步,由L1产生候选2-项集C2,然后扫描事务数据库对C2中的项集进展计数。4) 第四步,依据最小支持度,从候选集C2中确定频繁2-项集L2。5)第五步,由频繁2-项集L2生成候选3-项集C3,生成的候选3-项集的集合C3={A,B,C},C3的子集都是常见的,且项集{A,B,C}计数为3,即L3=C3={A,B,C},L3即为频繁3-项集。由频繁项集产生关联规章如下:针对频繁3-项集L3,非空真子集有:{A},{B},{C},{A,B},{A,C},{B,C},相应的置信度为:因为最小置信度为90%,故全部关联规章为:B-AC、AB-C、BC-A三、假设数据集D含有9个数据对象〔用二维空间的点表示〕:A1(3, 2),A2(3, 9),A3(8, 6),B1(9, 5),B2(2, 4),B3(3, 10),C1(2, 6),C2(9, 6),C3(2, 2)基于欧几里得间隔 采纳k-均值方法聚类,取k=3,初始的簇质心为A1,B1和C1,求:(1) 第一次循环完毕时的三个簇的质心。(2) 最终求得的三个簇。解:〔1〕第一次循环:d2〔A1,A1〕=(3-3)2+(2-2)2=0d2〔A1,B1〕=(3-9)2+(2-5)2=45d2〔A1,C1〕=(3-2)2+(2-6)2=17因为d2〔A1,A1〕最小,所以,A1-A1d2〔A2,A1〕=(3-3)2+(9-2)2=49d2〔A2,B1〕=(3-9)2+(9-5)2=60d2〔A2,C1〕=(3-2)2+(9-6)2=10因为d2〔A2,C1〕最小,所以,A2-C1d2〔A3,A1〕=(8-3)2+(6-2)2=41d2〔A3,B1〕=(8-9)2+(6-5)2=2d2〔A3,C1〕=(8-2)2+(6-6)2=36因为d2〔A3,B1〕最小,所以,A3-B1d2〔B1,A1〕=(9-3)2+(5-2)2=45d2〔B1,B1〕=(9-9)2+(5-5)2=0d2〔B1,C1〕=(9-2)2+(5-6)2=50因为d2〔B1,B1〕最小,所以,B1-B1d2〔B2,A1〕=(2-3)2+(4-2)2=5d2〔B2,B1〕=(2-9)2+(4-5)2=50d2〔B2,C1〕=(2-2)2+(4-6)2=4因为d2〔B2,C1〕最小,所以,B2-C1d2〔B3,A1〕=(3-3)2+(10-2)2=64d2〔B3,B1〕=(3-9)2+(10-5)2=61d2〔B3,C1〕=(3-2)2+(
文档评论(0)