数据挖掘技术及应用(我见过的最全面的理论最佳案例组合).教案分析.ppt

数据挖掘技术及应用(我见过的最全面的理论最佳案例组合).教案分析.ppt

  1. 1、本文档共586页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据的预测 类别的预测 3.5 数据挖掘的可视化 以可视化的方式展示数据挖掘获取的相关知识。例如: -散点图和盒图 (obtained from descriptive data mining) -决策树 -关联规则 -聚类 -异常点 -规则 SAS Enterprise Miner 的散点图 3.3.2 典型算法 PARTITION算法的主要思想 该算法主要针对大型数据库,包括两部分: (1)将目标数据库分为n个互不相交的子数据库D1,…,Dn,每个Di(i=1, 2,?,n)的大小都要能容纳在内存中。然后把每个Di,读入内存并按一般算法发现频繁项集Li。再把所有的Li合并为数据库D的潜在频繁项集PL =Ui Li; (2)计算潜在频繁项集PL在D中的支持度,得出频繁项集L。 3.3.2 典型算法 Sampling算法的主要思想 对数据库D进行随机抽样得到抽样事务数据库D’,先以小于指定的支持度( minsup)挖掘D’中的频繁项集L’,再在剩余的数据集D-D’中继续计算L’中各元素的支持数,最后再以minsup求出L。这在大多数情况下就可以求得所有的频繁项集,但是有时会漏掉一些。这时可以对D进行二次扫描以发现漏掉的频繁项集。 优点:多数情况下只需对数据库扫描一次,最坏情况下也只需扫描两次。 3.3.3 算法实现 Apriori 算法的实现 (1)由候选项集(candidate itemset)产生频繁项集(frequent itemset); (2)由频繁项集(frequent itemset)产生强关联规则(strong association rule)。 3.3.3 算法实现 Apriori算法的基本流程 使用逐层搜索的迭代方法,通过对数据库的多次扫描发现所有的频繁项集。在每一趟扫描中只考虑具有同一长度k(即为项集中所含项目的个数)的所有项集。算法的第一次扫描仅仅计算每个项目的具体支持度,以确定长度为1的频繁项集。在后继的每一次扫描中,首先使用在前一次获得的频繁项集Lk-1和Apriori-gen函数产生的候选项集q,接着扫描数据库,计算Ck中候选项的支持度,最后确定候选项集中哪些真正成为频繁项集。重复上述过程直到再也发现不了新的频繁项集为止。 Database D Scan D C1 L1 L2 C2 C2 Scan D C3 L3 Scan D Apriori算法实例 设定最小支持度阈值为2 交易号 项集合 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1,I3 T800 I1,I2,I3,I5 T900 I1,I2,I3 设定最小支持度阈值为2 扫描D,对每个候选项计数,生成C1: 项集 支持度计数 {I1} 6 {I2} 7 {I3} 6 {I4} 2 {I5} 2 比较候选项支持度计数与最小支持度计数,生成L1: 项集 支持度计数 {I1} 6 {I2} 7 {I3} 6 {I4} 2 {I5} 2 由L1产生候选集C2: 项集 {I1,I2} {I1,I3} {I1,I4} {I1,I5} {I2,I3} {I2,I4} {I2,I5} {I3,I4} {I3,I5} {I4,I5} 再次扫描D,对每个候选项计数,产生L2: 项集 支持度计数 {I1,I2} 4 {I1,I3} 4 {I1,I5} 2 {I2,I3} 4 {I2,I4} 2 {I2,I5} 2 对L2进行连接剪枝,产生C3,即最终结果。 项集 {I1,I2,I3} {I1,I2,I5} 3.3.2 典型算法 Apriori 算法的局限性 由于依赖于候选项集产生频繁项集的理论(Apriori类算法)所开发的算法具有先天的弱点,使得在基于Apriori算法开发的应用没有实质性突破。 Han等提出的一种新的算法理论,用一种压缩的数据结构(FP-tree)存储关联规则挖掘所需的全部数据信息,通过对源数据的两次扫描,将数据信息存到这种结构里,避开了产生候选项集的步骤,极大地减少了数据交换和频繁匹配的开销。这就是所谓无候选项集产生的算法(Frequent Patterns Growth, FP-growth)。 3.3.3 算法实现 改进的算法——FP-growth (1)它构造了一种新颖的、紧凑的数据

文档评论(0)

武神赵子龙 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档