数据挖掘技术及其应用实现.doc

下载文档 降价啦

29
0
约4.05千字
约 12页
2012-08-08 发布于河南
举报
版权申诉
保障服务

数据挖掘技术及其应用实现.doc

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘技术及其应用实现.doc

数据挖掘技术及其应用实现 0803031xx 【摘要】知识发现与数据挖掘是人工智能、机器学习和数据库相结合的产物。随着科学数据的大量积累和各种数据库的广泛使用，人们又逐步认识到海量数据的利用十分困难、效率低下，而且很难从中获得有价值的指导性意见。在这种情况下，数据库挖掘技术应运而生。本文介绍了数据库挖掘技术的现状、过程和其在现实生活中的应用。【关键字】数据挖掘、知识获取、数据库、处理过程引言随着数据库技术的成熟和数据引用的普及，人类积累的数据量正以指数级迅速增长。进入九十年代，伴随着英特网（Internet）出现和发展，以及随之而来的企业内部网（Intranet）和企业外部网（Extranet）以及虚拟私有网（VPNVirtualPrivatenetwork）产生和应用，将整个世界联成一个小小的地球村，人们可以跨越时空界限在网上交换数据信息和协同工作。这样，展现在人们面前的已不是局限于本部门，本单位和本单位的庞大数据库，而是浩瀚无垠的信息海洋，数据洪水正向人们滚滚涌来。当数据量极度增长时，如果没有有效的方法，由计算机及信息技术来有用信息和知识，人们也会感到面对信息海洋像大海捞针一样束手无策。据估计，一个大型企业数据库中数据，只有百分之七得到很到应用。这样，相对于“数据过剩”和“信息爆炸”，人们又感到“信息贫乏”（Informationpoor）和“数据关在牢笼中”（datainjail），奈斯伯特 JohnNaisbett 惊呼“we are downing information，but starving for knowledge”（人类正在被数据淹没，却饥渴于知识）。面对浩瀚无际的数据，人们呼唤从数据汪洋中来一个去粗存精、去伪存真技术。从数据库中发现知识（KDD）及其核心技术——数据挖掘（DM）便应运而生了。知识发现与数据挖掘一般来说，知识知识获取（KnowledgeDiscovery inDatabases，简称KDD）意为在数据库中发现知识，它代表从底层次数据中提取高层次数据的全过程，包括数据信息的收集、数据原型的确定、相关函数的分析、知识的抽取和数据模式分析。而数据挖掘（KD）则是指从数据中自动抽取模型。数据挖掘包括许多步骤：从大规模数据库中（或从其他来源）取得数据；选择合适的特征属性；挑选合适的样本策略；剔除数据中不正常的数据并补足不够的部分；用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配；辨别所得到的是否是知识则需将得到的结果信息化或可视化，然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。数据挖掘的研究领域极广泛，主要包括数据库系统，基于知识的系统，人工智能，机器学习，知识获取，统计学，空间数据库和数据可视化领域。数据库数据库及其相关的技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、存储和操作的基础。随着平行和分布式数据库的使用，对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中的数据在线分析，主要是如何利用多种方法对数据进行实时处理和分析。一般来说，通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数，则要对各个特征属性进行组合形成新的数据库。其中，对于数据库的挖掘所得知识支持率的研究是一个新领域。为了直接从数据库中发现联系规则，已经以产品的形式出现的分析和分类表达式的新方法。此外，为了对数据库问题的求解和优化，利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。人工智能人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据，而对于连续变量注意较少。在基于机器学习和基于案例的推理中，分类和聚类算法着重于启发式搜索和非参数模型。对于其结果，并不象模式模式识别和统计学在数学上的精确和严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助，在通过大量搜索表达式和选择变量上很有作用。另外，机器学习对于发现数据结构，特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立的关于特定领域知识和数据已有的知识的相对容易理解和自然的框架。人工智能的其他技术，包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。统计学统计学在数据样本选择、数据处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价，很明显也包括了评价数据挖掘结果。在数据预处理步骤中，统计学提出估计噪声参数过程中要用的平滑处理的