数据挖掘与数据仓库技术.docxVIP

下载本文档

21
0
约3.51千字
约 4页
2017-09-05 发布于重庆
举报
版权申诉

数据挖掘与数据仓库技术.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘与数据仓库技术

　一、问答题：1．数据仓库和数据库有何不同？它们有哪些相似之处？答：区别：数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据.它用表组织数据，采用ER数据模型。它们都为数据挖掘提供了源数据,都是数据的组合.2．什么是数据挖掘？请举例。数据挖掘:是从大量数据中提取或挖掘知识,也就是从存放在数据库,数据仓库或其他信息库中的数据挖掘有趣知识的过程.数据挖掘是可以从数据库中提取有趣的知识规律或高层信息发现的知识,可以用于决策,过程控制,信息管理,查询处理.它不是一种从数据库,统计学和机器学习发展的技术的简单转化,它涉及多学科技术的集成,包括数据库技术,统计学,机器学习,高性能计算模式识别,神经网络,数据可视化,信息检索,图象与信号处理和空间数据分析.随着数据库技术发展,数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为数据丰富,但信息贫乏,所以数据挖掘出来了. 当把数据挖掘看作知识发现过程时,它涉及的步骤为: 1)数据清理 2)数据集成 3)数据选择 4)数据变换 5)数据挖掘 6)模式评估 7)知识表示3．试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法，而不愿使用查询驱动的方法。因为对于多个异种信息源的集成，查询驱动方法需要复杂的信息过滤和集成处理，并且与局部数据源上的处理竞争资源，是一种低效的方法，开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能，因为数据被处理和重新组织到一个语义一致的数据存储中，进行查询的同时并不影响局部数据源上进行的处理，另外，还支持复杂的多维查询。当异种数据源上的数据格式一致或者转换比较容易，并且所要求的查询比较简单，不需要复杂的多维查询时，查询驱动方法可能更受欢迎。4．在现实世界的数据中，元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。答：1）忽略元组 2）人工填写空缺值 3）使用一个全局常量填充空缺值4）使用属性的平均值填充空缺值 5）使用与给定元组属同一类的所有样本的平均值 6）使用最可能的值填充空缺值。其中，方法3到6使数据倾斜，填入的值可能不正确。不过，方法6是最常用的方法5．对于类特征化，基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么？讨论哪种方法最有效，在什么条件下最有效。数据立方体方法是基于数据仓库的，面向预计算的，物化视图的方法。它在OLAP或数据挖掘查询提交处理之前，脱机计算聚集。面向属性归纳是面向关系数据库查询的，基于概化的，联机的数据分析处理技术。面向属性归纳方法更有效，因为在面向属性归纳之前进行数据聚焦，根据数据挖掘提供的信息进行数据收集，选择相关的数据集不仅使数据挖掘更有效，而且与整个数据库挖掘相比，能产生更有意义的规则。　　二、填空题：　　1.数据挖掘是一个多学科领域，这些学科包括：,数据库系统，统计学，机器学习，可视化和信息科学。　　2.数据挖掘的功能有概念/类描述，关联分析，分类与预测，聚类分析，孤立点分析，演变分析。????3.数据挖掘的主要问题包括：挖掘方法和用户交互问题，性能问题，数据库类型的多样性问题。????4.数据挖掘的性能问题包括：数据挖掘算法的有效性，算法的可伸缩性，并行、分布式、增量挖掘算法的研究。　　三、证明题：　Apriori算法使用子集支持度性质的先验知识。1．证明频繁集的所有非空子集必须也是频繁的。证明：根据定义，如果项集不满足最小支持度阈值min_sup，则不是频繁的，即如果想添加到，则结果项集不可能不更频繁出现。因此，也不是频繁的，即矛盾。2．证明项集的任意非空子集的支持度至少和s的支持度一样大。同理可证。　　四、算法分析与扩展任意选择《数据挖掘》书的第一章至第八章中一个算法进行分析与扩展，要求：1 .描述该算法的思想，层次结构。2.写出比较易懂的算法流程图或伪代码3.如果让你用程序来实现算法，你准备采用什么数据结构实现（包括怎样读入和存放要处理的数据以及算法处理流程中需要用到的数据结构）,并做具体说明。4.指出算法的不足之处，应该从哪些方面增强算法的功能和性能。K-平均算法：算法描述：首先，随机地选择什对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：这里的E是数据库中所有对象的平方误差的总和，P是空间中的点，表示给定的数据对象，m；是簇C；的平均值k和m；都是多维的人