数据挖掘与知识获取课件5、挖掘频繁模式、关联和相关幻灯片.ppt

数据挖掘与知识获取课件5、挖掘频繁模式、关联和相关幻灯片.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
THE END OF CHAP5 由事务数据库挖掘多层关联规则 由关系数据库和数据仓库挖掘多维关联规则 由关联挖掘到相关分析 基于约束的关联规则 大型数据库中的关联规则挖掘 多层关联——搜索策略 (1) 具有递减支持度的多层关联规则的搜索策略 逐层独立:完全的宽度搜索,没有频繁项集的背景知识用于剪枝 层交叉单项过滤:一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的(P165, 图6-14) (computer)?( laptop computer, desktop computer) 层交叉k项集过滤:一个第i层的k项集被考察,当且仅当它在第(i-1)层的对应父节点k-项集是频繁的(P165, 图6-15) (computer, printer)?(( laptop computer, color printer), (desktop computer, b/w printer) …) 多层关联——搜索策略 (2) 搜索策略比较 逐层独立策略条件松,可能导致底层考察大量非频繁项 层交叉k项集过滤策略限制太强,仅允许考察频繁k-项集的子女 层交叉单项过滤策略是上述两者的折中,但仍可能丢失低层频繁项(图6-14) 受控的层交叉单项过滤策略 层交叉单项过滤策略的改进版本 设置一个层传递临界值,用于向较低层传递相对频繁的项。 即如果满足层传递临界值,则允许考察不满足最小支持度临界值的项的子女 用户对进一步控制多概念层上的挖掘过程有了更多的灵活性,同时减少无意义关联的考察和产生 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] min_sup = 12% level_passage_support = 8% min_sup = 3% 挖掘基于距离的关联规则 等宽划分将很近的值分开,并创建没有数据的区间 等深划分将很远的值放在一组 基于距离的关联规则挖掘考虑属性值的接近性,紧扣区间数据的语义,并允许值的类似 基于距离的关联规则挖掘的两遍算法: 1. 使用聚类找出区间或簇 2. 搜索频繁地一起出现的簇组,得到基于距离的关联规则 因为未考虑数据点之间或区间的相对距离,分箱方法不是总能紧扣区间数据的语义 * 支持度和置信度分别是衡量实用性和确定性的指标 %2的支持度指的是所有的事务(购买记录)中的2%同时购买了计算机和软件 置信度60%意味着购买了计算机的人中,60%也购买了软件 FP树结构的好处 完整性: 不会打破任何事务数据中的长模式 为频繁模式挖掘保留了完整的信息 紧凑性 减少了不相关的信息—非频繁的项被删除 按频度递减排列——使得更频繁的项更容易在树结构中共享 数据量比原数据库要小 FP树挖掘 FP树的挖掘步骤 由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(一个“子数据库”,由FP树中与后缀模式一起出现的前缀路径集组成) 构造该初始后缀模式的条件FP树,并递归地在该树上实现挖掘。模式增长通过后缀模式与条件FP树产生的频繁模式连接实现。 FP树挖掘——从FP树到条件模式基 从项头表开始挖掘,由频率低的节点开始 沿循每个(频繁)项的链接来遍历FP树 通过积累该项的前缀路径来形成一个条件模式基 条件 模式基 item cond. pattern base c f:3 a fc:3 b fca:1, f:1, c:1 m fca:2, fcab:1 p fcam:2, cb:1 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 项头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 FP树挖掘——构建条件FP树 对每个条件模式基 为基中的每一项累积计数 为模式基中的频繁项构建FP树 m-条件 模式基 : fca:2, fcab:1 {} f:3 c:3 a:3 m-条件 FP-树 涉及 m的所有频繁模式 m, fm, cm, am, fcm, fam, cam, fcam ? ? {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 项头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 5.3 挖掘各种类型的关联规则 多层关联规则 (1) 数据项中经常会形成概念分层 底层的数据项,其支持度往往也较低 这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度 All Computer accessory software laptop financial mouse color printer computer desktop IBM

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档