- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘技术概述及前景展望;数据挖掘由来;数据挖掘的原由;数据挖掘技术的由来;数据挖掘技术的由来;数据挖掘概念的提出;数据挖掘概念的提出;数据挖掘的定义;数据挖掘的定义;数据挖掘的定义;知识是什么……;知识发现〔KDD〕的过程;数据挖掘;计费系统;数据仓库与数据挖掘的关系;数据挖掘与OLAP;数据挖掘系统的组成
数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。
数据库或数据仓库效劳器:根据用户的挖掘请求,数据库或数据仓库效劳器负责提取相关数据。
知识库:是领域知识,用于指导搜索,或评估结果模式的兴趣度。;
数据挖掘引擎:数据挖掘系统的根本局部,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。
模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。
图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。;典型结构;分析问题;挖掘工程工作流程;数据挖掘过程;从系统设计看数据挖掘过程模型;Fayyad过程模型;CRISP-DM〔Cross-IndustryStandardProcessforDataMining〕过程模型;数据挖掘方法论;数据挖掘技术分类;数据挖掘的任务和方法;预测模型;关联分析;分类分析;聚类分析;序列分析;偏差检测;模式相似性挖掘;Web数据挖掘;分类与预测
分类和预测是两种重要的数据分析方法,在商业上的应用很多。分类和预测可以用于提取描述重要数据类型或预测未来的数据趋势。
分类是找出一个类别的概念描述,它代表了这类数据的整体信息,既该类的内涵描述。一般用规那么或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征不等。典型的方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线??回归方程。
分类的方法主要有:决策树(C5或CART)、贝叶斯分类、基于遗传算法分类
预测的方法主要是回归统计,包括:线性回归、非线性回归、多元回归、泊松回归、对数回归等。分类也可以用来预测。神经网络方法预测既可用于连续数值,也可以用于离散数值。
;2.关联分析
关联分析--就是挖掘数据对象之间的相互依赖关系。
关联—假设两个或多个变量的取值之间存在某种规律性,就称为关联。
一个关联规那么的形式为:
A1∧A2∧…∧Ai→B1∧B2∧…∧Bj
其含义为:如果A1∧A2∧…∧Ai,那么一定出现B1∧B2∧…∧Bj
数据中的关联可分为:
简单关联
如:买面包的顾客中有90%的人购置了牛奶。面包→牛奶
时序关联
如:粮食涨价,不久副食品涨价。
因果关联
属条件与结论的依赖关系。;聚类分析
将数据点分组的过程,从而使得同一组内的数据点类似。
检查一大群最初没有差异的顾客,看看能否把它们分在自然形成的组内。
聚类不同于分类的区别在于结果是分析出来的而不是事先预定的。
没有预先制定的设想,希望数据挖掘工具能够揭示某些有意义的结构。
聚类技术主要包括:模式识别方法、数学分类法、概念聚类、神经网络的自组织模型等。;4.人工神经网络
人工神经网络,是对人类大脑系统机能的简单抽象和模拟;
神经网络是一组连接的输入/输出单元,其中每个连接都与一个权相关联,在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号来学习。
具有高度抗干扰能力和可以对未训练的数据分类的特点
鼓励函数的选择和权值的调整
将人工神经网络应用于数据挖掘的主要缺点是,通过人工神经网络学习到的知识难于理解;学习时间太长,不适于大型数据集。;神经网络;5.偏差检测
对数据库中的异常数据进行检测,称为偏差检测。
偏差检测的根本方法:寻找观察结果与参照之间的差异。
观察:通常是某一个域的值或多个域值的汇总。
参照:是给定模型的预测、外界提供的标准量或另一个观察。
偏差检测的数据模式有:极值点、断点、拐点、零点和边界等不同的偏差对象。
偏差包括的规那么知识有:分类中的反常实例;模式的例外;观察结果对模型预测的偏差;量值随时间的变化等。;数据挖掘常用的10大算法;2.K-Means算法
k-meansalgorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个
文档评论(0)