数据挖掘技术关联性分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术关联性分析

* 第8章 知识类数据挖掘技术 8.1 知识发现系统的结构 8.2 关联规则的数据挖掘技术 8.3 神经网络的数据挖掘技术 8.4 遗传算法的数据挖掘技术 8.1 知识发现系统的结构 知识发现系统管理器:控制并管理整个知识发现过程,包括数据选择过程、抽取算法的选择及使用过程、发现的评价过程。 知识库和商业分析员 数据仓库的数据库接口 数据选择 知识发现引擎:分类、聚类、偏差分析、模糊推理等 发现评价 发现描述 8.2 关联规则的数据挖掘技术 自然界中某种事物发生时其他事物也会发生的这样一种联系称之为关联。 反映事件之间依赖或关联的知识称为关联型知识(又称依赖关系) 关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识 关联规则发现的主要对象是交易型数据库,一个交易一般由交易处理时间,一组顾客购买的物品,有时也有顾客标识号(如信用卡号)组成。 交易号(TID) 项集合(Itemsets) T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 例: 以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律——“购买篮球的顾客中有70%的人同时购买篮球运动服,所有交易中有40%的人同时购买篮球和篮球运动服” 等等。 篮球 篮球运动服 support=40% , confidence=60% 交易号(TID) 项集合(Itemsets) T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 项集:一个数据项的集合 k项集:包含k个数据项的项集 规则X?Y在交易数据集D中的 置信度是对关联规则准确度 的衡量。度量关联规则的强 度。即在所有出现了X的活动 中出现Y的频率,即规则X?Y 的必然性有多大。 记为confidence(X?Y)。 计算方法: 包含X和Y的交易数与包含X的 交易数之比: confidence(X?Y) = P(Y∣X) = |{T: X?Y?T, T?D}|/|{T:X?T,T?D}| ×100% 规则X?Y在交易数据集D中的 支持度是对关联规则重要性 的衡量,反映关联是否是普 遍存在的规律,说明这条规 则在所有交易中有多大的代 表性。即在所有交易中X与Y 同时出现的频率记为: support(X?Y)。 计算方法: 交易数据集中同时包含X和Y 的交易数与所有交易数之比: support(X?Y) = P(X∪Y) = |{T: X?Y?T,T?D}|/ |D|×100% (其中|D|是交易数据集D中 的所有交易数) 可信度(置信度) 支持度 关联规则度量 交易号(TID) 项集合(Itemsets) T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 求 I2 ? I4的置信度和支持度 最小置信度阈值 最小支持度阈值 同时满足最小置信度阈值和最小支持度阈值的关联规则为强关联规则,是有意义有价值。 交易号(TID) 项集合(Itemsets) T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 设: 最小置信度阈值为2 最小支持度阈值为2 请问I1 ? I4, I2 ? I4是强规则吗? 在给定一个交易数据集D,挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度阈值和最小置信度阈值的关联规则。 项集的出现频度(项集的支持度):整个交易数据集D中包含该项集的交易记录数 最小支持频度:满足最小支持阈值所对应的交易记录数 频繁k-项集:满足最小支持阈值的项集 挖掘交易数据库D中所有关联规则的问题可以被划分为两个子问题: 找出所有具有最小支持度的项集(频繁项集) 。用Apriori、FP-Growth等算法来找出频繁项集。 使用频繁项集生成期望的关联规则。对于每一个频繁项集l,找出其中所有的非空子集;然后,对于每一个这样的子集a,如果support(l)与support(a)的比值大于最小可信度,则存在规则a==(l-a)。 找出频繁项集--Apriori算法 Apriori性质:一个频繁项集中任一子集也应是频繁项集 Apriori算法的基本思想:首先找出频繁1-项集,记为L1,然后利用L1来挖掘L2,即频繁2-项集,每挖掘一层Lk需扫描整个数据集一遍 交易号 项集合 T100 I1,I2,I5 T200 I2,I4 T

文档评论(0)

djdjix + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档