上海交通大学 高级数据库 课件 陆朝俊asso_ch.ppt

上海交通大学 高级数据库 课件 陆朝俊asso_ch.ppt

关联 什么是频繁模式分析? 频繁模式: 在数据集中频繁出现的模式(项集, 子序列, 子结构等) 动机: 找出数据中的内在规律性 哪些产品经常被一起购买?— Beer and diapers?! 购买了PC之后下一个会买什么? 何种DNA对这个新药敏感? 能否自动分类web文档? 应用 购物篮分析, cross-marketing, 商品目录设计, 促销活动分析, Web日志(点击流)分析, DNA序列分析 例:候选项集生成 由:L3 = {abc, abd, acd, ace, bcd } Step-1:自连接L3*L3 abcd from abc 和abd acde from acd 和ace Step-2: 剪枝 由于ade 不在L3 中, acde 被删除 得:C4 = {abcd } * * 基本概念: 频繁模式和关联规则 项集X = {x1, …, xk} 找出满足最小支持度和置信度的所有规则X ? Y 支持度 s, 一笔交易包含X?Y的概率 置信度 c, 一笔包含X的交易也包含Y的条件概率 令 supmin = 50%, confmin = 50% 频繁模式: {A:3, B:3, D:4, E:3, AD:3} 关联规则: A ? D (60%, 100%) D ? A (60%, 75%) 买尿布的客户 两者都买的客户 买啤酒的客户 Transaction

文档评论(0)

1亿VIP精品文档

相关文档