数据挖掘技术及其应用分析.docVIP

下载本文档

3
0
约2.6千字
约 6页
2017-07-30 发布于福建
举报
版权申诉

数据挖掘技术及其应用分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术及其应用分析

数据挖掘技术及其应用分析摘要：数据挖掘是一门新兴的数据处理技术，是当前一个热门的研究领域。数据挖掘中应用的技术包括经典的统计、聚类，也包括最新发展起来的决策树、神经网络和关联规则等一些较新的方法。简要介绍了数据挖掘的概念和过程关键词：数据挖掘；过程；应用中图分类号：TP3　文献标识码：A　文章编号：1672-3198(2009)14-0283-02 1　数据挖掘概念数据挖掘(Data Mining，DM)，是随着数据库和人工智能发展起来的新兴的信息处理技术。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理，并从中提取辅助决策的关键性数据。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘是一门涉及面很广的交叉性新兴学科，涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。 2　数据挖掘技术 2.1　关联规则方法关联规则是一种简单，实用的分析规则，描述了一个事物中某些属性同时出现的规律和模式，是数据挖掘中最成熟的主要技术之一。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系，所挖掘出的关联规则量往往非常巨大，但是。并不是所有通过关联得到的属性之间的关系都有实际应用价值，对这些关联规则进行有效的评价。筛选出用户真正感兴趣的。有意义的关联规则尤为重要。 2.2　分类和聚类方法分类就是假定数据库中的每个对象属于一个预先给定的类。从而将数据库中的数据分配到给定的类中。而聚类分析是根据所选样本间关联的标准将其划分成几个组，同组内的样本具有较高的相似度，不同组的则相异。分类和聚类的区别在于分类事先知道类别数和各类的典型特征，而聚类则事先不知道。聚类方法适合于探讨样本间的内部关系，从而对样本结构做出合理的评价。 2.3　数据统计方法使用这些方法一般首先建立一个数据模型或统计模型，然后根据这种模型提取有关的知识。传统的统计学为数据挖掘提供了许多判别和回归分析方法。贝叶斯推理、回归分析、方差分析等技术是许多挖掘应用中有力的工具之一。 2.4　神经网络方法神经元网络，具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。这些优点使得神经元网络非常适合解决数据挖掘的问题。因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类；用于分类、预测和模式识别的前馈式神经网络模型；用于联想记忆和优化计算的反馈式神经网络模型；用于聚类的自组织映射方法。 2.5　决策树方法决策树学习是一种通过逼近离散值日标函数的方法，把实例从根结点排列到某个叶子结点来分类实例。叶子结点即为实例所属的分类，利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的字段。建立决策树的一个结点，再根据字段的不同取值建立树的分支；在每个分枝子集中，重复建立树的下层结点和分支的过程，即可建立决策树。 2.6　粗糙集粗糙集(Rough Set)能够在缺少关于数据先验知识的情况下，只以考察数据的分类能力为基础，解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性，对数据库中的元组根据备个属性不同的属性值分成相应的子集，然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。 3　数据挖掘过程按工作流程包括以下几个步骤： (1)数据准备：一般存储在数据库系统中的是长期积累的大量的数据，往往不适合利用这些进行处理，需要做数据准备工作，一般包括数据的选择、净化、推测、转换、数据缩减，通过这些工作生成数据仓库。数据准备是否做好将影响到数据挖掘的效率和准确度以及最终模式的有效性。 (2)数据挖掘：在前面步骤所获得的数据集上进行数据挖掘，可以单独利用也可以综合利用各种数据挖掘方法对数据进行分析，根据数据挖掘的目的。选定数据挖掘算法，选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。 (3)结果的分析和同化；上面得到的模式模型，有可能是没有实际意义或没有使用价值的。因此需要评估，确定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。对数据挖掘出的结果进行解释和评价，转换成为能够最终被用户理解的知识。其具体的挖掘过程如图1：