- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识发现与数据挖掘概述
摘要:数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
关键字:知识发现 数据挖掘 神经网络 决策树
引言
知识发现与数据挖掘是人工智能,机器学习与数据库技术相结合的产物。随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着互联网的出现和发展,以及各种局域网的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。由于计算机数据采集工具以及关系数据库技术的发展,各行业存储了大量的数据,而关系数据库提供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,这样既淹没了包含的知识又造成了资源的浪费。传统的数据分析手段更是难以应付,导致越来越严重的数据灾难,使决策者出现或是穷于应付,或是置之不理的事实。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识发现(KDD, Knowledge Discovery in Database),也有人称为数据挖掘(Data Mining)技术的出现。从数据库中发现知识(Knowledge Discovery in Database-KDD)一词是于1989年8月在美国底特律召开的第一届KDD国际学术会议上正式形成的。1995年在加拿大召开了第一届知识发现和数据挖掘(Data Mining—DM, 有人翻译为数据挖掘、数据发掘、数据采掘)国际学术会议。
1、数据挖掘技术的概念
1.1 知识发现的概念
KDD(知识发现)是一个综合的过程,它包括数据录入、迭代求解、用户交互以及许多定制要求和决策设计等,这一研究领域兴起于八十年代初,它是一个众多学科诸如人工智能、机器学习、模式识别、统计学、数据库和知识库、数据可视化等相互交叉、融合所形成的一个新兴的且具有广阔前景的领域。
在KDD-96国际会议上,Fayyad, Piatetsky-Shapiro和Smyth对KDD作了如下描述:指从数据库中识别并获取获取正确、新颖、有潜在应用价值和最终可理解的模式的非平凡过程。 在这个描述中,数据库是一系列数据事实的集合。模式即知识,它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。过程是在KDD中包含的多阶段的处理,如数据的预处理、模式搜索、知识表示及知识评价等。最终可理解性则要求发现的模式能被用户理解,目前它主要体现在简洁性上。非平凡是指它已经超越了一般封闭形式的数量计算,而将包括对结构、模式和参数的搜索。
1.2数据挖掘的对象
数据挖掘的对象主要是关系数据库。随着数据开采技术的发展,逐步进入到空间数据库,时态数据库,文本数据库,多媒体数据库,环球互联网等。文字、音频、图象、视频等多媒体数据已逐渐成为信息领域的重要表现形式。音频、视频的数据量很大,要从千万计的多媒体数据中找出需要的数据和信息是很困难的。目前,对多媒体数据的处理只能在存取,编辑,集成,快进快退等基本操作上,对多媒体信息的检索仅靠文件标识、关键字等进行检索,局限性很大。目前,基于内容的多媒体检索,通过实例的查询方式,检索相似图象,音频,视频信息的应用已经相当成熟。基于内容的音频、视频信息的聚类、分类、相似查询等数据挖掘技术,已成为研究的热点。
1.3 KDD过程的一般步骤
KDD过程由多个阶段的处理相互连接起来,反复进行人机交互过程,一般有数据的预处理、模式搜索、知识表示及知识评价等。
KDD过程一般如图2.1
图2.1
由上图知,知识发现的过程可粗略的理解为三部曲:数据准备(Data preparation)阶段、数据挖掘(Data mining)阶段以及模型的解释评估(interpreparation and evaluation)阶段。
1.4 数据发掘与知识发现的关系
从知识发现的概念及步骤中,我们可以看出,其实知识发现的核心就是数据发掘,而数据发掘的目的就是有效地从海量数据中提取出需要的知识,实现从数据到信息再到知识转变为价值的过程。
并非所有的知识发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的互联网页面,则是信息检索领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科
文档评论(0)