网站大量收购闲置独家精品文档,联系QQ:2885784924

1-第一章 数据挖掘和数据仓库概述(21468字).pdfVIP

1-第一章 数据挖掘和数据仓库概述(21468字).pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第一章数据挖掘和数据仓库概述

随着计算机技术和网络技术的迅速发展,信息化程度快速增长,人们积累的数据越来越

多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便

更好地利用这些数据。目前的数据处理技术可以较好地实现数据的录入、查询、统计等功能,

但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘

数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。面对这一挑战,数据

挖掘和知识发现技术应运而生,并显示出强大的生命力。

数据挖掘技术的发展催生用于决策分析数据环境的改变,而传统的数据库管理系统很

难满足其要求,具体表现为:数据量成几何级数增长;不同部分的数据难以集成;访问这些

数据的响应性能不断降低。要想使数据能够发挥其最佳效用,更好地为用户服务,数据必须

经过严格的准备、组织和显示等几个步骤。数据仓库正是可以满足上述要求的数据存储和数

据组织技术。

1.1数据挖掘引论

1.1.1数据挖掘的由来

数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图通过某种方法

实现自动决策支持,于是机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的

并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规

则,这些规则具有通用性,使用它们可以解决某一类的问题。

机器学习的研究最早始于20世纪60年代。比较典型的结果有Rosenblate的感知机,

Sammel的西洋跳棋程序。

20世纪80年代,机器学习取得了较大的成果。如Michelski等人的AQ11系统(1980),

Quiulan的ID3(1983)决策树方法,Langley等人的BACON系统(1987),Rumelhart等人

研制的反向传播神经网络BP模型(1985)等。

这些显著成果的出现,使“机器学习”逐渐形成了人工智能的主要学科方向之一。1980

年在美国召开了第一届国际机器学习学会研讨会,1984年《机器学习》杂志问世。

在国内,1987年召开了第一届全国机器学习研讨会,1989年成立了中国人工智能学会

机器学习学会。

1989年美国召开了第一届知识发现(knowledgediscoveryindatabase,KDD)国际学术会

议,从数据库中发现知识形成了新概念。KDD研究的问题有:定性知识和定量知识的发现;

知识发现方法;知识发现的应用等。

1995年在加拿大召开了第一届知识发现和数据挖掘(datamining,DM)国际学术会议。

由于把数据库中的“数据”形象地比喻为矿床,“数据挖掘”一词很快流传开来。

数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术,而这些方法

和技术都来自于机器学习。

1.1.2数据挖掘的定义

数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据

中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖

掘应该更正确地命名为“从数据中挖掘知识”。

用于数据挖掘的原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构

化的,如文本、图形、图像数据等。数据挖掘的方法可以是数学的,也可以是非数学的;可

1

--

以是演绎的,也可以是归纳的。挖掘出的知识可以被用于信息管理、查询优化、决策支持、

过程控制等;还可以用于数据自身的维护。

数据挖掘是一个完整的过程,其一般步骤如图1-1所示。

原始数据被选择预处理后转换后被抽取分析的

的数据的数据的数据的数据结果

选择预处理转换挖掘分析

确定业务对数据准备数据挖掘

文档评论(0)

177****7360 + 关注
官方认证
文档贡献者

中专学生

认证主体宁夏三科果农牧科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91640500MABW4P8P13

1亿VIP精品文档

相关文档