- 2
- 0
- 约1.87万字
- 约 60页
- 2016-12-03 发布于重庆
- 举报
第八讲挖掘频繁模式关联和相关
第八讲 挖掘频繁模式、关联和相关 Mining Frequent Patterns, Association and Correlations 基本概念和线路图 有效的和可伸缩的频繁项集挖掘方法 挖掘各种类型的关联规则(自学) 关联规则到相关分析 基于约束的关联规则(自学) 小结 What Is Frequent Pattern Analysis? 频繁模式(Frequent pattern): 频繁地出现在数据集中的模式(项集,子序列或子结构等)。 提出:Agrawal, Imielinski, and Swami [AIS93] 动机:寻找数据内部隐含的关联 哪些商品频繁地被同时购买?— Beer and diapers?! 买了PC机之后客户经常还会购买哪些相关商品? 哪种DNA对这种新病毒很敏感? 我们能自动对Web上的文档进行分类吗? 应用 购物篮分析、交叉销售、目录设计、点击流分析、DNA序列分析…… Why Is Freq. Pattern Mining Important? 挖掘数据集内在且重要的属性 频繁模式是纵多数据挖掘基本任务的基础 关联、相关与因果分析 序列、结构(如“子图”)分析 时空数据、多媒体数据、时间序列数据、流数据上的模式分析 分类 聚类分析:基于频繁模式的聚类 数据仓库:冰山立方体 基于语义的数据压缩 …… 关联规则的分类方法 根据规则中所处理的值类型 布尔关联规则:考虑项的“在与不在” 量化关联规则:量化的项或属性之间的关联Age(X,”30~39”)∧income(X,”42~48K”)=buys(X,”high_resolution_TV”) 根据规则中所涉及的数据维(谓词) 单维 buys(X,”computer”)=buys(X,” financial_management_software”) 多维 :见上例 根据规则集所涉及的抽象层:单层、多层 Age(X, “30~39”)=buys(X,”laptop computer”) Age(X, “30~39”)=buys(X,”computer”) 根据挖掘模式的完全性 频繁项集的完全集、闭频繁项集和极大频繁项集、被约束的频繁项集、近似频繁项集…… 根据挖掘的规则类型分类 关联规则、相关规则、强梯度联系等 根据挖掘的模式类型分类 频繁项集挖掘、序列模式挖掘、结构模式挖掘 基本概念 项集:Itemset X = {x1, …, xk} 找出满足规则 X ? Y 的最小支持度与置信度 support, s, probability that a transaction contains X ? Y confidence, c, conditional probability that a transaction having X also contains Y 关联规则 形如A=B的蕴涵式(A?I, B ?I, A?B=?) D={t1,t2,..tk..tn} tk={i1,i2,…im..ip},im称为项目Item I={i1,i2,..,im}是项的集合 规则A=B在数据集D中成立,具有支持度s和置信度c 规则兴趣度的两个度量 支持度(support):事务集中事务包含A?B的百分比。——反映了规则的有用性 Support(A=B) = P(A?B) 最小支持度阈值min_sup 支持度计数 置信度(confidence):事务集中包含A的事务同时也包含B的百分比——反映了规则的确定性 Confidence(A =B) = P(B|A) 最小置信度阈值min_conf 强规则:满足min_sup和min_conf的规则 例如: Computer=financial_management_software [support=2%,confidence=60%] 有关概念 项集:项的集合。 K-项集:包含k个项的项集 项集的频率:包含项集的事务数 频繁项集:支持度不小于min_sup的项集 挖掘关联规则的过程 找出所有频繁项集(中心问题) 由频繁项集产生强关联规则 Mining Frequent Patterns, Association and Correlations 基本概念和线路图 有效的和可伸缩的频繁项集挖掘方法 挖掘各种类型的关联规则 关联规则到相关分析 基于约束的关联规则 小结 Scalable Methods for Mining Frequent Patterns The downward closure property of frequent patterns Any subset of a frequent itemset must be frequent If {beer,
您可能关注的文档
- 第五章地下水的作用.ppt
- 第五章噪声污染与控制.ppt
- 第五章地基模型与路用力学指标.ppt
- 第二讲围堰工程2.ppt
- 第五章多原子分子的结构11使用.ppt
- 第五章换元积分法.ppt
- 第五章智能仪器的标准数据通信接口技术.ppt
- 第五章数据显示及存取_MATLAB全教学(安装使用运算编程仿真应用与接口).pptx
- 第五章机械静强度可靠性设计.ppt
- 第五章数字滤波器IIR和FIR.pptx
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 课件第3讲gps伪距测量原理.pptx VIP
- 焊割工操作安全培训内容课件.pptx VIP
- 蚌埠市博物馆展览陈列大纲.pdf VIP
- 《爷爷的爷爷从哪里来》整本书阅读 课件 四年级下册语文(统编版).pptx VIP
- 指南共识│咯血诊治专家共识.pptx
- 博物馆陈列展览大纲精编.docx VIP
- Q/GDW 376.1-2009《电力用户用电信息采集系统通信协议:主站与采集终端通信协议》及编制说明1.doc VIP
- 阀门电动执行装置设计毕业设计(论文).doc VIP
- 中考数学二轮复习 专题11 二次函数与矩形、菱形的存在性问题(知识解读)(解析版).doc VIP
- 博物馆陈列展览大纲(2019最新版).docx VIP
原创力文档

文档评论(0)