- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的前世今生
摘要:数据挖掘是一个多学科领域,它融合了数据库技术、人工智能、机器学习、 统计学、知识工程、信息检索等最新技术的研究成果,其应用非常广泛。只要是有分析价值的数据库,都可以利用数据挖掘工具来挖掘有用的信息。数据挖掘典型的应用领域包括市场、工业生产、金融、医学、科学研究、工程诊断等。本文主要介绍数据挖掘的产生、定义与研究历史,并对国内外的研究现状及研究热点进行了总结,最后指出其发展趋势及问题所在。
随着信息时代的到来,许多行业如商业、企业、科研机构和政府部门等迅猛发展,信息化程度逐渐加深,海量的、不同形式存储的数据资料迅速膨胀。这些海量数据中往往隐含着各种各样有用的信息,而仅仅依靠数据库的查询检索机制和统计学方法又很难获得这些信息,迫切需要一种技术能自动地、智能地将待处理的数据转化为有价值的信息,从而达到为决策服务的目的。在这种情况下一个新的技术——数据挖掘(Data Mining,DM) 技术应运而生。数据挖掘所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,或者说,从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为决策的依据。同时,数据挖掘还能探索出数据库中那些先前从未被关心或知悉的数据信息,这些信息对于决策者来说,往往具有重要的意义[1]。
数据挖掘的产生与概念
1.数据挖掘的产生
数据挖掘的出现是一个逐渐演变的过程。电子数据处理的初期,人们试图实现自动决策支持,当时人们关心与研究的焦点主要是机器学习。机器学习的过程是先将已知的并被成功解决的范例输入计算机,然后机器通过学习这些范例总结并生成相应的通用规则,这些规则常被使用来解决某一类问题。随着神经网络技术的形成和发展,人们的注意力开始转向知识工程。知识工程的过程不同于机器学习,而是直接在计算机上输入代码化的规则,计算机通过使用这些规则来解决某些问题。专家系统就是基于这种方法所得到的成果,但它有许多不足,比如,投资大、效果不甚理想等。
80年代,在新的神经网络理论的指导下,关注焦点重新回到机器学习,其成果被广泛地应用于处理大型商业数据库。在80年代末,出现了一个新的术语——数据库中的知识发现,简称KDD(Knowledge Discovery in Database),它泛指所有从源数据中发掘模式或联系的方法。KDD描述了整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而数据挖掘(data mining)描述使用挖掘算法进行数据挖掘的子过程。最近人们却逐渐习惯于使用数据挖掘来涵盖整个过程。
因为其中的许多工作由统计方法来完成,因此统计方法与数据挖掘的有机结合是最好的策略。数据挖掘技术的形成与数据仓库技术的发展有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的主要原因之一。因为很多数据挖掘可直接从操作数据源中挖掘信息,所以数据仓库并不是数据挖掘的先决条件。表1.1展示了数据挖掘的进化历程[1]。
表1.1 数据挖掘的进化历程
进化阶段
商业问题
支持技术
产品厂家
产品特点
数据搜集(60年代)
过去五年中我的总收入是多少?
计算机、磁带和磁盘
IBM,CDC
提供历史性的、静态的数据信息
数据访问(80年代)
在新英格兰的分部去年三月的销售额是多少?
关系数据库(RDBMS),结构化查询语言(SQL),ODBC
Oracle、Sybase、Informix、IBM、Microsoft
在记录级提供历史性的、动态数据信息
数据仓库;决策支持(90年代)
在新英格兰的分部去年三月的销售额是多少?
波士顿据此可得出什么结论?
联机分析处理(OLAP)、多维数据库、数据仓库
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各种层次上提供回溯的、动态的数据信息
数据挖掘(正在流行)
下个月波士顿的销售会怎么样?为什么?
高级算法、多处理器计算机、海量数据库
Pilot、Lockheed、IBM、SGI、其他初创公司
提供预测性的信息
2.数据挖掘的定义
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括多层含义:(1)数据源必须是真实、大量、含噪声;(2)发现的知识要是用户感兴趣的;(3)发现的知识要可接受、可理解、可应用;(4)发现的知识并不要求普遍适用,仅需要支持特定的问题[2]。
知识,从广义上可以理解为所有的数据、信息集合,但人们更愿意把概念、规则、模式、规律和约束等看作知识。数据是形成知识的源泉。原始数据有三种表现形式:结构化的,如关系数据库中的数据;半结构化的,如文本、图形和图像数据;分布在网络上的异构型数据。发现知识的方法也有多种,可
原创力文档


文档评论(0)