- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘发展和应用综述
数据挖掘发展和应用综述
摘要:本文介绍了数据挖掘的分类方法和目前采用较普遍的一些数据挖掘方法;分析、总结了数据挖掘技术在商业、Web挖掘、科学研究等几个主要领域的应用情况;综合论述了数据挖掘未来的发展趋势。
关键词:数据挖掘;应用;发展;综述
中图分类号:N37文献标识码:A文章编号:1009-3044(2007)18-31486-01
Summary of Data Mining Development and Application
WEN Xiao-yan,DU Hai-ruo
(School of Mechanical Engineering,Southwest Jiaotong University,Chengdu 610031,China)
Abstract:In this paper,we intruduct the classification measure and currently some of the more general used mining methods of data mining. The application of data mining technology in business, Web mining, scientific research, and several other key areas is Analyzed and summarized. Summarizes the future development trend of data mining.
Key words:Data mining;Application;Development;Summary
1 引言
随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘技术应运而生。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[1]。
2 数据挖掘分类
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类[2]。
数据挖掘最开始是从在关系数据库中挖掘知识发展起来的,随着数据库类型的不断增加,现有:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。
按数据挖掘的对象分,除了数据库数据挖掘外,还有文本数据挖据、多媒体数据挖掘、Web数据挖掘。
按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也将会不同。
按数据挖掘的方法和技术分类,有:归纳学习类、仿生物技术类、公式发现??、统计分析类、模糊数学类、可视化技术类等。
3 数据挖掘方法
数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以及数据库为研究对象,形成数据挖掘的方法。
(1)归纳学习方法
归纳学习方法是目前重点研究的力向之一,研究成果众多。从采用的技术上看,分为两大类:信息论方法(这也是常说的决策树方法[3])和集合论方法,每类方法义包含多个具体方法。
信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,所以一般文献中称它为决策树方法[3]。该类方法的实用效果好,影响较大。信息论方法中较有特色的方法以下几种:ID3等方法、IBLE方法、集合论方法、概念树方法、粗糙集方法、覆盖正例排斥反例方法。
(2)仿生物技术
仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,我们将它们归并为仿生物技术类。
(3)公式发现
在工程和科学数据库中对若干数据项进行一定的数学运算得相应的数学公式。常见的有物理定律发现系统BACON、经验公式发现系统统。
(4)统计分析方法
利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,它是一门独立学科,也作为数据挖掘的―大类方法,包括:常用统计、相关分析、回归分析、差异分析、聚类分析、判别分析。
(5)模糊数学方法
模糊性是客观的存在,当系统的复杂性越高,其精确化能力便越低,这就意味着模糊性越强。这是Zadeh总结出的互克性原理。利用模糊集合理论
文档评论(0)