挖掘频繁模式关联和相关.pptVIP

  • 0
  • 0
  • 约1.44万字
  • 约 82页
  • 2018-02-19 发布于河南
  • 举报
挖掘频繁模式关联和相关

第5章 挖掘频繁模式、关联和相关 1.基本概念 2.有效的和可伸缩的频繁项集挖掘方法 3.挖掘各种类型的关联规则 4.由关联挖掘到相关分析 5.基于约束的关联挖掘 从啤酒与尿布的故事说起 挖掘动机 什么产品经常被一同购买?啤酒和尿布?! 买了PC后接下来会买什么? 哪类DNA对新药敏感? 能否对web文档自动分类? 频繁项集、闭项集和关联规则 5.1基本概念: 频繁模式与关联规则 项集 X = {x1, …, xk} 每个事务T是项的集合 关联规则是形如 X ? Y 的蕴涵式,满足最小支持度和置信度 支持度 s, 事务中同时包含 项X ? Y的概率 置信度 c, 事务包含项 X 时也包含项Y 的条件概率 基本概念: 频繁模式与关联规则 支持度 support (A ? B )=P (A ? B ) 置信度 confidence(A ? B )=P (B|A ) 支持度计数:项集的出现频率,即包含项集的事务数 基本概念: 频繁模式与关联规则 关联规则挖掘的一般步骤 (1)找出所有的频繁项集。 support (X)≥supmin (2)由频繁项集产生强关联规则 从大型数据库中挖掘频繁项集的主要困难在于将产生大量的频繁项集 频繁k项集:含k个频繁项 一个长项集包含大量的频繁子项集的组合: n个频繁1项集,可能组合出的频繁项集 C1n+ C2n+…+ Cnn=2n-1 基本概念:闭

文档评论(0)

1亿VIP精品文档

相关文档