数据挖掘技术概述及前景展望.pptVIP

下载本文档

0
0
约4.05千字
约 72页
2024-12-31 发布于广西
举报
版权申诉

数据挖掘技术概述及前景展望.ppt

1、本文档共72页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘技术概述及前景展望;数据挖掘由来;数据挖掘的原由;数据挖掘技术的由来;数据挖掘技术的由来;数据挖掘概念的提出;数据挖掘概念的提出;数据挖掘的定义;数据挖掘的定义;数据挖掘的定义;知识是什么……;知识发现〔KDD〕的过程;数据挖掘;计费系统;数据仓库与数据挖掘的关系;数据挖掘与OLAP;数据挖掘系统的组成

数据库、数据仓库或其他信息库：是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。

数据库或数据仓库效劳器：根据用户的挖掘请求，数据库或数据仓库效劳器负责提取相关数据。

知识库：是领域知识，用于指导搜索，或评估结果模式的兴趣度。;

数据挖掘引擎：数据挖掘系统的根本局部，由一组功能模块组成，用于特征化、关联、分类、聚类分析以及演变和偏差分析。

模式评估模块：使用兴趣度量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上，可能使用兴趣度阈值过滤发现的模式。

图形用户界面：该模块在用户和数据挖掘系统之间通信，允许用户与系统交互，指定数据挖掘查询或任务，提供信息，帮助搜索聚焦，根据数据挖掘的中间结果进行探索式数据挖掘。;典型结构;分析问题;挖掘工程工作流程;数据挖掘过程;从系统设计看数据挖掘过程模型;Fayyad过程模型;CRISP-DM〔Cross-IndustryStandardProcessforDataMining〕过程模型;数据挖掘方法论;数据挖掘技术分类;数据挖掘的任务和方法;预测模型;关联分析;分类分析;聚类分析;序列分析;偏差检测;模式相似性挖掘;Web数据挖掘;分类与预测

分类和预测是两种重要的数据分析方法，在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。

分类是找出一个类别的概念描述，它代表了这类数据的整体信息，既该类的内涵描述。一般用规那么或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。

预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征不等。典型的方法是回归分析，即利用大量的历史数据，以时间为变量建立线性或非线??回归方程。

分类的方法主要有：决策树(C5或CART)、贝叶斯分类、基于遗传算法分类

预测的方法主要是回归统计，包括：线性回归、非线性回归、多元回归、泊松回归、对数回归等。分类也可以用来预测。神经网络方法预测既可用于连续数值，也可以用于离散数值。

;2.关联分析

关联分析--就是挖掘数据对象之间的相互依赖关系。

关联—假设两个或多个变量的取值之间存在某种规律性，就称为关联。

一个关联规那么的形式为：

A1∧A2∧…∧Ai→B1∧B2∧…∧Bj

其含义为：如果A1∧A2∧…∧Ai，那么一定出现B1∧B2∧…∧Bj

数据中的关联可分为：

简单关联

如：买面包的顾客中有90%的人购置了牛奶。面包→牛奶

时序关联

如：粮食涨价，不久副食品涨价。

因果关联

属条件与结论的依赖关系。;聚类分析

将数据点分组的过程，从而使得同一组内的数据点类似。

检查一大群最初没有差异的顾客，看看能否把它们分在自然形成的组内。

聚类不同于分类的区别在于结果是分析出来的而不是事先预定的。

没有预先制定的设想，希望数据挖掘工具能够揭示某些有意义的结构。

聚类技术主要包括：模式识别方法、数学分类法、概念聚类、神经网络的自组织模型等。;4.人工神经网络

人工神经网络，是对人类大脑系统机能的简单抽象和模拟；

神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。

具有高度抗干扰能力和可以对未训练的数据分类的特点

鼓励函数的选择和权值的调整

将人工神经网络应用于数据挖掘的主要缺点是，通过人工神经网络学习到的知识难于理解；学习时间太长，不适于大型数据集。;神经网络;5.偏差检测

对数据库中的异常数据进行检测，称为偏差检测。

偏差检测的根本方法：寻找观察结果与参照之间的差异。

观察：通常是某一个域的值或多个域值的汇总。

参照：是给定模型的预测、外界提供的标准量或另一个观察。

偏差检测的数据模式有：极值点、断点、拐点、零点和边界等不同的偏差对象。

偏差包括的规那么知识有：分类中的反常实例；模式的例外；观察结果对模型预测的偏差；量值随时间的变化等。;数据挖掘常用的10大算法;2.K-Means算法

k-meansalgorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个

您可能关注的文档

文档评论（0）

199****4744 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：7002121022000045

1亿VIP精品文档

更多 >

数据挖掘技术概述及前景展望.pptVIP