数据仓库与数据挖掘第一章概述40.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库与数据挖掘第一章概述40

关联分析 关联(Association)分析:关联规则描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关联。 置信度和支持度均大于给定阈值的规则称为强规则。 Green peppers implies bananas Lift=1.37 support=3.37 confidence=85.96 Red peppers implies bananas Lift=1.43 support=8.57 confidence=89.47 Yellow peppers implies bananas Lift=1.17 support=22.12 confidence=73.04 采取措施放置青椒的位置 交易1: 冷冻比萨、可乐、牛奶 交易2: 牛奶、炸薯片 交易3: 冷冻比萨、可乐 交易4: 牛奶、椒盐卷饼 交易5: 椒盐卷饼、可乐 冷冻比萨 牛奶 可乐 炸薯片 椒盐卷饼 冷冻比萨 2 1 2 0 0 牛奶 可乐 炸薯片 椒盐卷饼 1 3 1 1 1 2 1 3 0 1 0 1 0 1 0 0 1 1 0 2 关联规则挖掘近几年研究 它广泛地运用于帮助市场导向、商品目录设计客户关系管理)(CRM)和其他各种商业决策过程中。 关联分析算法:APRIORI算法、DHP算法、DIC算法、PARTITION算法及它们的各种改进算法等. 分类分析 分类(Classification)分析:所谓分类是根据数据的特征为每个类别建立一个模型,根据数据的属性将数据分配到不同的组中。在实际应用过程中,分类规则可以分析分组中数据的各种属性,并找出数据的属性模型,从而确定哪些数据属于哪些组。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 分类分析的常用方法: 约略(Rough)集 决策树 神经网络 统计分析法 聚类分析 聚类(Clustering)分析:所谓聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示,由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。聚类分析的常用方法: 随机搜索聚类法 特征聚类 CF树 序列分析 序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“若ATT股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 偏差检测与模式相似性挖掘 偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。 Web数据挖掘 Web数据挖掘包括Web使用模式挖掘、Web结构挖掘和Web内容挖掘等。 Page A →Page B →Page C →Page D 登记→注册→产品描述→购买 基于Web的研究 搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。 Data Warehousing Introduction 第一章 数据仓库与数据挖掘概述 本章要点 数据仓库的发展 数据仓库的基本概念 数据挖掘的发展 数据挖掘的基本概念 数据仓库与数据挖掘的集成 数据仓库的发展 自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业。 客户/服务器结构-分布式对象。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。 数据仓库的发展 IBM: 在其DB2UDB

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档