Lecture4关联规则挖掘-2015答题.pptVIP

  • 2
  • 0
  • 约7.57千字
  • 约 45页
  • 2016-12-04 发布于湖北
  • 举报
* Data Mining * 包含m的频繁模式 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 am: 3, cm:3, fm:3 cam:3, fam:3, fcm:3 fcam:3 * Data Mining * 包含b的频繁模式 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 包含b的频繁模式为空 * Data Mining * 包含a的频繁模式 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 ca:3, fa:3 fca:3 * Data Mining * 包含c的频繁模式 {} f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 Header Table Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 fc:3 多维关联规则挖掘 基本思路:与单维布尔关联规则挖掘类似 数据预处理:如对数值数据离散化等 构建谓词数据集 利用Apriori算法挖掘频繁谓词模式 得到多维关联规则 * Data Mining 关系数据 * Data Mining key Age Income Product 1 18 0.4 小米 2 31 4.5 Computer 3 35 5 Computer 4 26 2.3 iPhone ? * Data Mining ID Items 1 A(18~20), I(0~0.5), B(小米) 2 A(30~40), I(4~6), B(Computer) 3 A(30~40), I(4~6), B(Computer) 4 A(21~29), I(1~3), B(iPhone) 谓词数据(经过离散) 挖掘频繁谓词模式 * Data Mining 谓词 计数 A(18~20) 1 A(21~29) 1 A(30~40) 2 B(Computer) 2 B(iPhone) 1 B(小米) 1 I(0~0.5) 1 I(1~3) 1 I(4~6) 2 谓词 计数 A(30~40) 2 B(Computer) 2 I(4~6) 2 C1 L1 挖掘频繁谓词模式 * Data Mining 谓词 计数 A(30~40) 2 B(Computer) 2 I(4~6) 2 L1 谓词 计数 {A(30~40), B(Computer)} 2 {A(30~40), I(4~6)} 2 {B(Computer), I(4~6)} 2 C2 谓词 计数 {A(30~40), B(Computer)} 2 {A(30~40), I(4~6)} 2 {B(Computer), I(4~6)} 2 L2 谓词 计数 {A(30~40), B(Computer), I(4~6)} 2 C3 挖掘频繁谓词模式 * Data Mining 谓词 计数 {A(30~40), B(Computer), I(4~6)} 2 L3 讨论:科学研究的第四范式 2007年,已故的图灵奖得主吉姆·格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科研“第四范式”的愿景。将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。 * Data Mining * Jim Gray “I wanted to point out that almost everything about science is changing because of the impact of information technology. Experimental, theoretical, and computational science are all being affected by the data deluge, and a fourth, “data-intensive” science paradigm is emerging.” * Data Mining * 一些惊人言论 谷歌公司的研究部主任彼得·诺维格(Peter Norvig)的一句名言可以概括两者的区别:“所有的模型都是错误的,进一

文档评论(0)

1亿VIP精品文档

相关文档