数据挖掘专业技术及应用(我见过的最全面的理谈+最佳案例组合).pptVIP

下载本文档

1
0
约6.43万字
约 586页
2019-06-01 发布于江苏
举报
版权申诉

数据挖掘专业技术及应用(我见过的最全面的理谈+最佳案例组合).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘专业技术及应用(我见过的最全面的理谈最佳案例组合)

决策树的可视化（MineSet 3.0）交易号项集合 T100 I1，I2，I5 T200 I2，I4 T300 I2，I3 T400 I1，I2，I4 T500 I1，I3 T600 I2，I3 T700 I1，I3 T800 I1，I2，I3，I5 T900 I1，I2，I3 设定最小支持度阈值为2 扫描D，对每个候选项计数，生成C1：项集支持度计数｛I1｝ 6 ｛I2｝ 7 ｛I3｝ 6 ｛I4｝ 2 ｛I5｝ 2 比较候选项支持度计数与最小支持度计数，生成L1：项集支持度计数｛I1｝ 6 ｛I2｝ 7 ｛I3｝ 6 ｛I4｝ 2 ｛I5｝ 2 由L1产生候选集C2：项集｛I1，I2｝｛I1，I3｝｛I1，I4｝｛I1，I5｝｛I2，I3｝｛I2，I4｝｛I2，I5｝｛I3，I4｝｛I3，I5｝｛I4，I5｝再次扫描D，对每个候选项计数，产生L2：项集支持度计数｛I1，I2｝ 4 ｛I1，I3｝ 4 ｛I1，I5｝ 2 ｛I2，I3｝ 4 ｛I2，I4｝ 2 ｛I2，I5｝ 2 对L2进行连接剪枝，产生C3，即最终结果。项集｛I1，I2，I3｝｛I1，I2，I5｝ 3.3.2 典型算法 Apriori 算法的局限性由于依赖于候选项集产生频繁项集的理论（Apriori类算法）所开发的算法具有先天的弱点，使得在基于Apriori算法开发的应用没有实质性突破。 Han等提出的一种新的算法理论，用一种压缩的数据结构(FP-tree)存储关联规则挖掘所需的全部数据信息，通过对源数据的两次扫描，将数据信息存到这种结构里，避开了产生候选项集的步骤，极大地减少了数据交换和频繁匹配的开销。这就是所谓无候选项集产生的算法(Frequent Patterns Growth, FP-growth)。 3.3.3 算法实现改进的算法——FP-growth (1)它构造了一种新颖的、紧凑的数据结构FP-tree。它是一种扩展的前缀树结构，存储了关于频繁模式数量的重要信息。 (2)开发了基于FP-tree的模式片断成长算法，它从长度为1的频繁模式开始，只检查它的条件模式构建它的条件模式树，并且在这个树上递归地进行挖掘。模式的成长通过联合条件模式树新产生的后缀模式实现。 (3)挖掘过程中采用的搜索技术是基于分区的，通过分割再解决的方法，而不是Apriori类算法的自下向上产生频繁模式的集合。 3.3.2 典型算法 FP-growth算法的主要思想该算法主要是为了克服类Apriori算法的产生候选项集的缺点，通过采用一种新的数据结构FP-tree来达到目的。优点：只扫描数据库二次，并且不用产生候选项集，提高了效率。 FP-growth 算法实现交易编号所有购物项（排序后的）频繁项 100 f,a,c,d,g,i,m,p f,c,a,m,p 200 a,b,c,f,l,m,o f,c,a,b,m 300 b,f,h,j,o f,b 400 b,c,k,s,p c,b,p 500 a,f,c,e,l,p,m,n f,c,a,m,p 其中，最小支持度阈值为3 FP-growth 算法实现 null{} b:1 f:3 c:1 b:1 p:1 a:2 b:1 m:1 f:2 c:2 a:3 f:4 c:3 m:2 p:2 3.f,b 4.c,b,p f:1 c:1 m:1 p:1 a:1 1.f,c,a,m,p 2.f,c,a,b,m 5.f,c,a,m,p FP-growth算法树的构造 FP-growth 算法实例生成的FP树节点链性质对任意频繁项ai，顺着ai的节点链，从ai的头开始，可以找到包含ai的所有频繁模式。 FP-growth 与 Apriori的比较 Data set T25I20D10K 3.4 预测 3.4.1 概述 3.4.2 典型算法 3.4.3 算法实现一方面，预测与分类相似首先，构建模型其次，使用模型预测未知值预测的主要方法是回归线性回归和多元回归非线性回归另一方面，预测不同于分类分类预测的是类别，而非连续的数值 3.4.1 概述 3.4.1 概述传统的预测方法趋势外推法时间序列法回归分析法等这些算法的原理简单，理论相对成熟，能用标准的技术来分析模型中的参数。 3.4.1 概述趋势外推法通常用描散