1数据挖掘每章知识.pdfVIP

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第一章

1.数据发掘定义:从大批的、不完好的、有噪声的、模糊的、随机的数据中,提

取隐含在此中的、人们早先不知道的、但又是潜伏实用的信息和知识的过程。

2.不可以在原数据库上做决议而要建筑数据库房的原由:传统数据库的办理方式和

决议剖析中的数据需求不相当,主要表此刻:⑴决议办理的系统响应问题⑵决议

数据需求的问题⑶决议数据操作的问题

3.数据库房的定义

W.H.Inmon的定义:数据库房是一个面向主题的、集成的、非易失的且随时间变

化的数据会合,用来支持管理人员的决议。

公认的数据库房看法基本上采纳了W.H.Inmon的定义:数据库房是面向主题的、

集成的、不行更新的(稳固性)随时间不停变化(不一样时间)的数据会合,用以

支持经营管理中的决议拟订过程。

4.数据库房与数据发掘的关系:

⑴数据库房系统的数据能够作为数据发掘的数据源。数据库房系统能够知够数据

发掘技术对数据环境的要求,能够直接作为数据发掘的数据源。⑵数据发掘的数

据源不必定一定是数据库房系统。数据发掘的数据源不必定一定是数据库房,可

以是任何数据文件或格式,但一定早先进行数据预办理,办理成适合数据发掘的

数据。

5.数据发掘的功能——7个方面:

⑴看法描绘:对某类对象的内涵进行描绘,并归纳这种对象的有关特点。①特点

性描绘②差异性描绘

⑵关系剖析:若两个或多个变量间存在着某种规律性,就称为关系。关系剖析的

目的就是找出数据中隐蔽的关系网。⑶分类与展望①分类②展望

⑷聚类剖析:客观的按被办理对象的特点分类,将有相同特点的对象归为一类。

⑸趋向剖析:趋向剖析——时间序列剖析,从相当长的时间的发展中发现规律和

趋向。

⑹孤立点剖析:孤立点:数据库中包含的一些与数据的一般行为或模型不一致

的数据。

⑺偏差剖析:偏差剖析——比较剖析,是对差异和极端特例的描绘,揭露事物偏

离惯例的异样现象。

6.数据发掘常用技术:⑴数据发掘算法是数据发

掘技术的一部分⑵数据发掘技术用于履行数据发掘

功能。⑶一个特定的数据发掘功能只合用于给定的

领域。

依照上述思想,数据发掘技术主要包含以下几种:⑴聚类检测方法⑵决议树方法

⑶人工神经网络方法。

人工神经网络方法:前馈式网络、反应式网络和自组织网络。

7.遗传算法基本算子:生殖、交错和变异。

8.数据发掘应用领域:

⑴金融业⑵保险业⑶零售业⑷科学研究⑸其余领域

9.数据发掘研究方向:

(1)特意用于知识发现的形式化和标准化的数据发掘语言;

(2)数据发掘过程中的便于用户理解的及人机交互的可视化方法;

(3)网络环境下的数据发掘技术;

(4)增强对各样非结构化数据的发掘。

10.数据发掘应用的热门:

(1)网站的数据发掘(2)生物信息或基因的数据发掘(3)文本的数据发掘

11.数据发掘技术是一门综合性的技术领域,主要波及数据库、人工智能和数理

统计3个技术领域。

12.数据发掘产生的前提是:从大批数据中找出隐蔽在此中的、实用的信息和规

律;计算机技术和信息技术的发展使其有能力办理这样大批的数据。

第二章

1.主题:是一个抽象的看法,是在较高层次大将公司信息系统中的数据综合、归类

并进行剖析利用的抽象。面向主题的数据组织方式,就是在较高层次上对剖析对

象的数据的一个完好、一致的描绘,能完好、一致地刻画各个剖析对象所波及的

公司的各项数据,以及数据之间的联系。

从信息管理的角度——在一个较高的管理层次上对信息系统中的数据依照某一

详细的管理对象进行综合、归类所形成的剖析对象。

从数据组织的角度——一些数据会合,对剖析对象进行了比较完好的、一致的数

据描绘,这种描绘不单波及数据自己,还波及数据之间的关系。

2.数据库房数据的4个基本特点:

⑴数据库房的数据是面向主题的;

⑵数据库房的数据是集成的;

⑶数据库房的数据是不行更新的;

⑷数据库房的数据是随时间不停变化的。

3.元数据“对于数据的数据”,如传统数据库中的数据词典就是一种元数据。元数

据描绘了数据库房的数据和环境,遍布数据库房的全部方面,是整个数据库房的

中心。

4.元数据在数据库房中的作用

⑴为决议支持系统剖析员和高层决议人员服务供应便利⑵解决面向应用的操作

您可能关注的文档

文档评论(0)

135****0993 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档