(完整word版)数据挖掘题目及答案.docx

(完整word版)数据挖掘题目及答案.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(完整word版)数据挖掘题目及答案 一、何为数据仓库?其主要特点是什么?数据仓库与KDD的联络是什么? 数据仓库是一个面对主题的〔Subject Oriented〕、集成的〔Integrate〕、相对稳定的〔Non-Volatile〕、反映历史改变〔Time Variant〕的数据集合,用于支持管理决策。 特点: 1、面对主题 操作型数据库的数据组织面对事务处理任务,各个业务系统之间各自分别,而数据仓库中的数据是根据肯定的主题域进展组织的。 2、集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的根底上经过系统加工、汇总和整理得到的,必需消退源数据中的不全都性,以保证数据仓库内的信息是关于整个企业的全都的全局信息。 3、相对稳定的 数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般状况下将被长期保存,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4、反映历史改变 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开头应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的进展历程和将来趋势做出定量分析和预报。 所谓基于数据库的学问发觉〔KDD〕是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的形式的非平凡过程。数据仓库为KDD供应了数据环境,KDD从数据仓库中提取有效的,可用的信息 二、 数据库有4笔交易。设minsup=60%,minconf=80%。 TID DATE ITEMS_BOUGHT T100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/5/2010 {C, A, B, E} 用法Apriori算法找出频繁项集,列出全部关联规章。 解:已知最小支持度为60%,最小置信度为80% 1〕第一步,对事务数据库进展一次扫描,计算出D中所包含的每个工程出现的次数,生成候选1-项集的集合C1。 2〕其次步,依据设定的最小支持度,从C1中确定频繁1-项集L1。 3〕第三步,由L1产生候选2-项集C2,然后扫描事务数据库对C2中的项集进展计数。 4) 第四步,依据最小支持度,从候选集C2中确定频繁2-项集L2。 5)第五步,由频繁2-项集L2生成候选3-项集C3,生成的候选3-项集的集合C3={A,B,C},C3的子集都是常见的,且项集{A,B,C}计数为3,即L3=C3={A,B,C},L3即为频繁3-项集。 由频繁项集产生关联规章如下: 针对频繁3-项集L3,非空真子集有:{A},{B},{C},{A,B},{A,C},{B,C},相应的置信度为: 因为最小置信度为90%,故全部关联规章为: B-AC、AB-C、BC-A 三、假设数据集D含有9个数据对象〔用二维空间的点表示〕: A1(3, 2),A2(3, 9),A3(8, 6),B1(9, 5),B2(2, 4),B3(3, 10),C1(2, 6),C2(9, 6),C3(2, 2) 基于欧几里得间隔 采纳k-均值方法聚类,取k=3,初始的簇质心为A1,B1和C1,求: (1) 第一次循环完毕时的三个簇的质心。 (2) 最终求得的三个簇。 解:〔1〕第一次循环: d2〔A1,A1〕=(3-3)2+(2-2)2=0 d2〔A1,B1〕=(3-9)2+(2-5)2=45 d2〔A1,C1〕=(3-2)2+(2-6)2=17 因为d2〔A1,A1〕最小,所以,A1-A1 d2〔A2,A1〕=(3-3)2+(9-2)2=49 d2〔A2,B1〕=(3-9)2+(9-5)2=60 d2〔A2,C1〕=(3-2)2+(9-6)2=10 因为d2〔A2,C1〕最小,所以,A2-C1 d2〔A3,A1〕=(8-3)2+(6-2)2=41 d2〔A3,B1〕=(8-9)2+(6-5)2=2 d2〔A3,C1〕=(8-2)2+(6-6)2=36 因为d2〔A3,B1〕最小,所以,A3-B1 d2〔B1,A1〕=(9-3)2+(5-2)2=45 d2〔B1,B1〕=(9-9)2+(5-5)2=0 d2〔B1,C1〕=(9-2)2+(5-6)2=50 因为d2〔B1,B1〕最小,所以,B1-B1 d2〔B2,A1〕=(2-3)2+(4-2)2=5 d2〔B2,B1〕=(2-9)2+(4-5)2=50 d2〔B2,C1〕=(2-2)2+(4-6)2=4 因为d2〔B2,C1〕最小,所以,B2-C1 d2〔B3,A1〕=(3-3)2+(10-2)2=64 d2〔B3,B1〕=(3-9)2+(10-5)2=61 d2〔B3,C1〕=(3-2)2+(

文档评论(0)

huifutianxia + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体文安县汇中商贸有限公司
IP属地河北
统一社会信用代码/组织机构代码
91131026MA07M9AL38

1亿VIP精品文档

相关文档