网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘:简介及答疑.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘:简介及答疑--第1页

数据挖掘

P什么是数据挖掘(概念)?

3

答:数据挖掘是指从大量数据中提取或“挖掘”知识;广义上讲数据挖掘是从存放在数据库、数据仓

库或其它信息库中的大量数据中发现有趣知识的过程。

什么是知识发现(KDD)?知识发现的步骤。

答:知识发现是所谓数据挖掘的一种更广义的说法,知识发现是从数据集中识别出有效的、新颖的、

潜在有用的,以及最终可理解的模式的非平凡过程。其步骤如下:

1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)数据评估7)知识表现

P数据仓库,数据集市的概念及其区别。

8

答:数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单

个站点,数据仓库是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。

数据集市(DataMart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务

的数据源中收集数据的仓库。

数据仓库收集了跨部门的整个组织的主题信息,因此它是企业范围的;另一方面,数据集市是数据仓

库的一个部门子集,它聚焦在选定的主题上,是部门范围的。

P数据挖掘系统与数据库系统或数据仓库系统的集成方式(四种)及其优缺点。

22

数据挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)

系统集成或耦合。

.不耦合(nocoupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据

源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。

尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活

性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。在DB和/

或DW系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据

成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。

使用这种系统开发有效的、可伸缩的实现是可行的。

此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使

用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。

数据挖掘:简介及答疑--第1页

数据挖掘:简介及答疑--第2页

.松散耦合(loosecoupling):松散耦合意味着DM系统将使用DB或DW系统的某些设施,从这些系统管

理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库

的指定位置。

松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库

中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。然而,许多松散耦合的挖掘系统是

基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松

散耦合系统很难获得高度可伸缩性和良好的性能。

.半紧密耦合(semitightcoupling):半紧密耦合意味除了将DM系统连接到一个DB/DW系统之外,一

些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这

些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量(如求和、计数、最大

值、最小值、标准差等)的预计算。

文档评论(0)

131****0419 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档