对数据挖掘的认识.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关

注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模

型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经

网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于

联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon

模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是

黑箱性,人们难以理解网络的学习和决策过程。

数据库方法主要是基于可视化的多维数据分析或OLAP方法,

另外还有面向属性的归纳方法。

三、数据挖掘的任务

数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分

析及时间序列。另外,还有孤立点分析、依赖关系分析、概念描述、

偏差检测等。

1、分类分析(ClassificationAnalysis)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信

息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决

策树模式表示。分类是有制导的学习,它利用训练数据集通过一定的

算法而求得分类规则。分类可被用于规则描述和预测,常应用于风险

管理、广告投放等商业环境。

2、聚类分析(ClusteringAnalysis)

聚类又被称为分隔(segmentatio),聚类分析是把数据按照

相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据

相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可

能的数据属性之间的相互关系。聚类分析是无制导的学习,聚类分析

与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标

识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很

高,而不同的聚簇间的相似性很低。

3、关联分析(AssociationAnalysis)

关联规则挖掘是由RakeshApwal等人首先提出的。两个或两

个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数

据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时

序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。

一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引

入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。最典型

的应用是市场中购物篮分析。

4、序列分析及时间序列(SequenceAnalysisandTime

Sequence)

序列分析及时间序列是指通过序列信息或时间序列搜索出重复

发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的

值,但这些数据的区别是变量所处的序列或时间的不同。

四、数据挖掘项目的开发周期

第1步数据收集

将要挖掘的数据资源收集到数据库或数据仓库中。若已有数据仓库的

主题数据不够丰富,还需从其他相关数据源加入新数据。数据收集完

后,还要进行数据合理采样,以减少训练数据集的容量。多数情况下,

从50,000客户记录中发现的模式有可能与从1,000,000客户记录

中发现的模式是一样的。

第2步数据清洗和转换

数据清洗的目的是消除数据的噪音和其他无关信息。数据转换的目的

是根据确定的数据类型和数据值将不同数据源的同类数据进行统一

格式。数据清洗和转换常用的相关技术有:数据类型转换、连续值属

性转换、分组、集合、去处孤立点等。

第3步模型建立

模型建立是数据挖掘的核心阶段。首先,要和相关领域的专家组成团

队,明确数据挖掘项目的目的和具体的数据挖掘任务。根据数据挖掘

任务,选择相关算法。用不同算法建立不同数据模型,再用专业的模

型评估工具比较模型的准确度。即使是同一种算法,参数选取的不同,

所建模型的准确度也不一样。

第4步模型评估

用模型评估工具对模型进行评估,认识发现模式的实际意义。若模型

中的模式没有用,必须要重新进行数据清洗和转换、建立模型。数据

挖掘是一个循环的过程,要通过反复的循环发现合理的模型。

第5步报告

报告是数据挖掘成果的主要交付手段。有两种类型的报告:发现模式

报告和预测报告。

第6步预测

在很多数据挖掘项目中,发现模式还不够,还要通过模式进行预测。

比如,银行业可以利用已建立的风险评估模型去预测每个新的贷款申

请的潜在风险。

第7步应用集成

将数据挖掘集成到实际应用中,特别是在应用中加入实时预

文档评论(0)

xinhezil + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体衢州市衢江区星赫电子商务商行
IP属地浙江
统一社会信用代码/组织机构代码
92330803MA7BB9H7X8

1亿VIP精品文档

相关文档