- 14
- 0
- 约 22页
- 2016-12-18 发布于重庆
- 举报
Review数据预处理度量数据的中心趋势均值 (代数度量) (样本 vs. 总体):Note: n 样本大小,N 总体大小. 加权算术均值:截断均值: 去掉高低极端值中位数: 奇数则为有序集的中间值, 否则为中间两个数的平均(基于分组数据)可以插值估计众数Mode出现频率最高的值(不惟一/每个值出现一次则没有)1/2/3个众数-〉单峰的, 双峰的, 三峰的Empirical formula:闵可夫斯基距离特殊形式h = 1: Manhattan (city block, L1 norm) distance曼哈顿距离(L1范数)E.g., the Hamming distance: the number of bits that are different between two binary vectorsh = 2: (L2 norm) Euclidean distanceh ? ?.上确界 “supremum” (Lmax norm, L? norm) distance. This is the maximum difference between any component (attribute) of the vectorsExample: Minkowski DistanceDissimilarity MatricesManhattan (L1)Euclidean (L2)Supremum (A=ai,B=bj)相关分析 (名义数据Nominal Data)Χ2 (chi-square) test 开方检验σij是(ai,bj)的观测频度(实际计数)eij是(ai,bj)的期望频度N数据元组的个数属A性a1a2i?acb1Bb2j?brΧ2 值越大,相关的可能越大对 Χ2 值贡献最大的项,其实际值与期望值相差最大的相相关不意味着因果关系Chi-Square 卡方值计算: 例子Play chessNot play chessSum (row)看小说250(90)200(360)450不看小说50(210)1000(840)1050Sum(col.)30012001500Χ2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布数据计算得到)结果表明like_fiction 和play_chess 关联关联规则挖掘Apriori算法的步骤Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识。 Apriori算法将发现关联规则的过程分为两个步骤:通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;利用频繁项集构造出满足用户最小信任度的规则。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 频繁项集为了避免计算所有项集的支持度(实际上频繁项集只占很少一部分),Apriori算法引入潜在频繁项集的概念。若潜在频繁k项集的集合记为Ck ,频繁k项集的集合记为Lk ,m个项目构成的k项集的集合为 ,则三者之间满足关系Lk ?Ck ? 。构成潜在频繁项集所遵循的原则是“频繁项集的子集必为频繁项集”。 关联规则的性质 性质1:频繁项集的子集必为频繁项集。 性质2:非频繁项集的超集一定是非频繁的。 Apriori算法运用性质1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck 是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。 Apriori: 一种候选产生-测试方法频繁项集的任何子集必须是频繁的如果 {beer, diaper, nuts} 是频繁的, {beer, diaper}也是每个包含 {beer, diaper, nuts}的事务 也包含 {beer, diaper} Apriori 剪枝原则: 如果一个项集不是频繁的, 将不产生/测试它的超集!方法: 由长度为k的频繁项集产生长度为 (k+1) 的候选项集, 并且根据 DB测试这些候选性能研究表明了它的有效性和可伸缩性Apriori 算法 — 一个例子Itemsetsup{A}2{B}3{C}3{D}1{E}3数据库 TDBItemsetsup{A}2{B}3{C}3{E}3L1TidItems10A, C, D20B, C, E30A, B, C, E40B, EC1第1次扫描C2C2Itemsetsup{A, B}1{A, C}2{A, E}1{B, C}2{B, E}3{C, E}2Itemset{A, B}{A, C}{A, E}{B, C}{B, E}{C, E}L2第2次扫描Itemsetsup{A, C}2{B, C}2{B, E}3{C, E}2
您可能关注的文档
最近下载
- 证券从业之证券市场基本法律法规考试题库(考点梳理).docx
- 2023年国家公务员考试题库含答案(a卷).docx
- 2024年幼儿自主游戏方案 .pdf
- 加强农电安全管理工作(三篇) .pdf
- 2024湖北省高考历史真题卷及答案.pdf VIP
- 鹤山市既有住宅增设电梯指导意见 .pdf
- 地铁防灾报警系统(FAS)与设备监控系统(BAS)调试内容概述与FAS、BAS系统方案探析.doc VIP
- 2025年安徽省高考历史真题卷(含答案与解析).doc VIP
- 2023年广西高考文科数学试题及答案.docx VIP
- 2025届广东省深圳市建文外国语学校两学部高三下学期二模英语试题(含解析).pdf VIP
原创力文档

文档评论(0)