Data Mining实用技术探析.docVIP

下载本文档

2
0
约3.85千字
约 8页
2017-12-05 发布于福建
举报
版权申诉

Data Mining实用技术探析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Data Mining实用技术探析

Data Mining实用技术探析　　【摘要】Data Mining就是从大量的实际应用数据中提取隐含信息和知识，它利用了数据库、人工智能和数理统计等多方面的技术，是一类深层次的数据分析方法。本文总结了数据挖掘的定义、目标、相关领域及其一般方法。作为一个新兴的研究领域，数据挖掘仍然有许多问题需要进行深入研究。【关键词】KDD；DBMS；分析；应用 0 引言数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出，人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理，但是目前所拥有的数据分析工具很难对数据进行深层次的处理，使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足，并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练，得到数据对象间的关系模式，这些模式反映了数据的内在特性，是对数据包含信息的更高层次的抽象[1]。目前，在需要处理大数据量的科研领域中，数据挖掘受到越来越多的关注，同时，在实际问题中，大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理，以节约时间，将更多的精力投入到更高层的研究中，从而提高科研工作的效率。 1 知识获取与数据挖掘一般说来，知识获取（Knowledge Discovery inDatabases，称KDD）意为数据库中知识获取，它代表从低层次数据中提取高层次知识的全过程，包括数据信息的收集，数据原型的确定，相关函数的分析，知识的抽取和数据模式分析[2]。统计学中常指的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤：从大规模数据库中（或从其他来源）取得数据；选择合适的特征属性；挑选合适的样本策略；剔除数据中不正常的数据并补足不够的部分；用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配；辨别所得到的是否是知识则需将得到的结果信息化或可视化，然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。数据挖掘的研究领域涉及广泛，主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。 1.1 人工智能人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据，而对于连续变量注意较少。在机器学习和基于案例的推理中，分类和聚类算法着重于启发式搜索和非参数模型。对于其结果，并不象模式识别和统计学在数学上的精确和要求严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助，在通过大量搜索表达式和选择变量上有很大作用。另外，机器学习对于发现数据结构，特别是人工智能中的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立了关于特定领域知识和数据的已有知识的相对容易理解和自然的框架。人工智能的其他技术，包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。 1.2 数据库数据库及其相关技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、储存和操作的基础。随着平行和分布式数据库的使用，对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中数据的在线分析，主要是如何利用多种方法对数据进行实时处理和分析。一般来说，通过相关数据结构的标准化可以克服要求特殊存取数据的困难。在数据挖掘中为了对数据进行特定的统计和计数，则要对各个特征属性进行组合形成新的数据库。其中，对于数据挖掘所得知识支持率的研究是个新领域。为直接从数据库中发现联系规则，已经以产品的形式出现了依靠分析和分类表达式的新方法。此外，为了对数据库问题的求解和优化，利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。 2 数据挖掘技术的方法数据挖掘涉及的学科领域和方法很多，如多种分类法。根据开采任务分，可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等；根据开采对象分，有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web；根据开采方法分，可粗分为：机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例学习、遗传算法等。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝