- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘数据挖掘原理创新.ppt
数据仓库 与数据挖掘 冯海旗 数据挖掘原理 * */26 * */26 数据挖掘 VLDB 太多数据 有价值的知识 概述:为什么需要数据挖掘? 随着全球信息化的发展,自动数据采集工具和成熟的数据库技术导致海量数据存储在数据库中 数据富裕,知识贫乏 大量数据背后隐藏着重要的知识 * */26 概述:数据挖掘的定义 数据挖掘是从关系数据库、数据仓库、WEB数据库以及其他文件系统中发现重要的数据模式、规律的过程。知识发现,它是OLAP的高级阶段。 定义:就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,识别出有效的、新颖的、潜在有用的,以及最终可理解的模式(或知识)的非平凡过程。 需要指出的是,这里所说的知识,不是放之四海而皆准的真理,而是相对的。 * */26 概述:数据挖掘与知识发现 自20世纪80年代起,开始了数据挖掘技术的研究。1989年在美国召开的国际学术会议上包含了“从数据库中知识发现”的主题;1995年在加拿大召开了第一届知识发现与数据挖掘国际学术会议。 * */26 数据挖掘是多学科的交叉 数据挖掘是一门交叉性学科,它涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等多个领域。 数据挖掘 数据库技术 统计学 其他学科 信息科学 机器学习 可视化 多种多样的挖掘方法 * */26 数据挖掘与数据仓库的关系 数据挖掘和数据仓库是作为两种独立的信息技术出现的。它们都可以完成对决策过程的支持,并且相互间有一定的内在联系。因此,将数据仓库与数据挖掘集成到一个系统中将能够更有效地提高系统的决策支持能力。 数据挖掘与数据仓库的关系 数据挖掘是数据仓库发展的必然结果 数据仓库为数据挖掘提供应用基础 * */26 在何种数据上进行数据挖掘 1. 多种数据库和DM的关系 多种数据库是DM能够处理的对象。正因为有着这么庞大而实际有用的数据作为数据挖掘的物质基础,研究数据挖掘才有了现实的意义。 数据挖掘在关系数据库中的作用 用SQL可以做什么? –上个季度卖出了什么商品? –列出上月每个部门的总销售量 –哪个销售员卖出的商品最多 Data Mining又能做什么? –预测新顾客的信誉风险 –检查商品销售变差的原因 发现隐含的规律、模式等是数据挖掘的主要形式 * */26 数据挖掘的方法与技术 信息论方法 决策树ID3、决策规则树IBLE方法 集合论方法 粗糙集方法、关联规则方法 仿生技术 神经网络、遗传算法、蚁群算法 可视化技术 * */26 数据挖掘的主要类型 数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有: 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性挖掘 Web数据挖掘 * */26 预测模型 预测模型(Predictive Modeling):所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。 预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。 建立预测模型的常用方法: 回归分析、线性模型、关联规则、决策树预测、遗传算法、神经网络 回归分析是典型的方法,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的预测值。 * */26 关联分析(Association) 关联分析:关联规则描述了一组数据项之间的密切度或关系。 关联分析用于发现项目集之间的关联。 在关联规则挖掘算法中,通常给出了置信度和支持度两个概念,对于置信度和支持度均大于给定阈值的规则称为强规则, 关联分析主要就是对强规则的挖掘。 * */26 关联分析 若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。 例如,买面包的顾客有90%的人还买牛奶,这是一条关联规则。 一般用“支持度”和“可信度”两个阈值来淘汰那些无用的关联规则。 * */26 关联分析算法 典型的关联分析算法 APRIORI算法 DHP算法 DIC算法 PARTITION算法及它们的各种改进算法等。 另外,对于大规模、分布在不同站点上的数据库或数据仓库,关联规则的挖掘可以使用并行算法,如:Count分布算法、Data分布算法、Candidate 分布算法、智能Data分布算法(IDD)和DMA分布算法等。 * */26 分类分析(Classification) 所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。 在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。
原创力文档


文档评论(0)