数据挖掘技术及其实现.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘技术及其实现

摘要:数据挖掘是在数据库中对数据进行一定的处理,从而获得其中隐含的、事先未知的而

又可能极为有用的信息。这些信息通常是以知识、规则或约束等形式来表现。这些知识可以

用于知识管理、问题求解、制定决策、过程控制和其他领域。本文分析了数据挖掘技术的相

关领域及其基本问题,为知识获取提供了一种新方法。

关键词:数据挖掘;知识获取;数据库

1引言

数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去

儿年中,从数据库中发现知识这一领域发展的很快。广阔的巾场和研究利益促使这一领域的

坛速发展。计算机技术和数据收集技术的进步使人们可以从更加广泛的范围和儿年前不可想

象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。

尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助

我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由

知识上程师把专家经验知识经过分析、筛选、比较、综合、再提取出知识和规则。然而,由

于知识上程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个折扣。日前,

传统的知识获取技术而对巨型数据仓库无能为力,数据挖掘技术就应运而生。

数据挖掘(Datamining,简称DM)从狭义上是指从数据库中提取知识。具体的说是在数

据库中,对数据进行一定的处理,从而获得其中隐含的、事先未知的而又可能极为有用的信

息。这些信息通常是以知识、规则或约束等形式来表现。在其他文献中有许多类似的提法,

例如:数据分析,知识获取,知识苯取,数据构成等。数据挖掘方法在数据库系统和人上智

能领域是一个新方向。这里所说的知识是指大量数据中存在的规律性(regularity)或不同特征

属性值之间所存在的[ifthen]规则。从大量数据中获取知识有两个层次的含义:首先,与科学

发现有关。从观测客观世界的大量实验数据(往往是数值)中发现数据的整体结构特性和数据

之间的函数关系,并根据统计特征推断客观世界中存在的规律性;其次,与商业数据等事实

数据所构成的数据库中发现其中隐含的规则或规律性有关。第一类是将人上智能技术与数据

库理论相融合的应用性研究课题。本文住要讨论后者。

数据挖掘的最终日的是发现人们不易察觉的、隐含的模式。一般说来,这些模式中最易

于理解的是统计模型。其次是对数据的外围检测,对大规模数据集的模式识别、分类或聚类。

最后是从理论和计算上解决在大多数数据库管理系统中存在的多维空间和大量的数据处理

的问题。

2知识获取与数据挖掘

一般说来,知识获取(KnowledgeDiscoveryinDatabases,称称KDD)意为数据库中知识

获取,它代表从低层次数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的

确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指的是无假设证实所进行

的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:

从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除

数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相

适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的

知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失

败的开始。在一般的定义中数据挖掘是知识获取的一部分。

数据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人上智能,机

器学习,知识获取,统计学,空间数据库和数据可视化等领域。

(1)统计学

统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以

往许多统计学的上作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘

的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程中要用的平滑处理的技术,

在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数

设计上也有用。但统计学研究的焦点是在于处理小规模数据样本采集和小规模数据集处理的

问题上。统计学的上作大多是针对技术和模型的理论方而。于是许多上作是着眼于线性模型、

递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调

寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据库上

程师或数据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力

文档评论(0)

178****5311 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档