数据挖掘的10大算法探讨.pptVIP

  1. 1、本文档共42页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8,PageRank PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。 一个网页可能只有如链,而出链也是指向自己,这就可能导致最终迭代结果是该页面的pagerank值为1,其他为0 一个网页可能只有如链,没有出链,这就可能导致最终迭代结果是所有页面的pagerank值为0 每一步,上网者可能都不想看当前网页了,不看当前网页也就不会点击上面的连接,而上悄悄地在地址栏输入另外一个地址,而在地址栏输入而跳转到各个网页的概率是1/n。假设上网者每一步查看当前网页的概率为a,那么他从浏览器地址栏跳转的概率为(1-a),于是原来的迭代公式转化为: 9,最大期望EM 取对数似然函数的最大值,代入1,2迭代直至收敛 10,SVM支持向量机 支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。 数据挖掘的10大经典算法 1,Apriori算法 Apriori算法使用的是一种逐层搜索的迭代是方法 首先,通过扫描数据库,累计每个项的个数,并搜集满足最小支持度的项,形成频繁1项集L1。通过L1,在数据库中寻找频繁2项集L2,直至不能找到更多项的平凡项集。 最小支持度为22% 数据库中有9条数据,最小支持度就是9*22%=2 扫描数据库根究最小支持度,得出频繁1项集C1. 根据C1扫描数据库得到2项集C2,比较最小支持度,删除不频繁项,得到频繁2项集L2. 根据排列组合,3项集应该如第一个集合显示的。如果基数很大的话,组合的数目应该很大。Apriori算法有个规则,如果一个k项集不是频繁项集,那么k+1项集也就不是频繁项集。根据频繁2项集排列组合得出中间的集合,然后扫描数据库,得出频繁3项集。 每找一次频繁k项集就要扫描一次数据库,每次都会生成大量的候选项集。 2,k-means 选取k个中心点 计算所有数据到中心点的距离(欧几里得距离),并把距某个中心点最近的点归到一类。 计算一个聚类里面的点的平均值,然后把平均值作为新的中心点 重复上面两步,直至收敛。 在样本集中随机的选择两个中心点 计算到中心点的欧几里得距离,把离同一个中心点最近的点归到一类中,计算聚类中点的平均值,作为新的中心点 不停地迭代,直至中心点收敛为止,得到最终的聚类结果 需要提前估计K点,比较困难,选择的不好的话,聚类效果会受到一定的影响。 计算量大,时间消耗比较大。 KNN,K最近邻分类法 一个样本空间里的样本分成很几个类型,然后,给定一个待分类的数据,通过计算接近自己最近的K个样本来判断这个待分类数据属于哪个分类。 一个数据放到测试数据中,k=3时,计算欧几里得距离,最靠近测试数据的有3个点,红的2个,蓝的一个,我们就把测试数据归到红色的类中 k=5时,计算欧几里得距离,最靠近测试数据的有5个点,红的2个,蓝的3个,我们就把测试数据归到蓝色色的类中 当一个数据v过大时,通过公式 v`=(v-min(a))/(max(a)-min(a)) 保证范围在[0-1]之间 计算量大,空间开销大,当样本不平衡时,在一定情况下,分类结果会出现误差 4,Na?ve Bayes朴素贝叶斯 P(A|B,C)=P(B|A)* P(C|A)* P(A)/(P(B)*P(C)) 在计算概率的时候,如果某个属性出现的次数0,则在对应得属性出现次数上都加上1 5,CART 是基于决策树的一种算法,将当前样本集分为两个样本集,使得每个没叶子节点都有两个分支,所以CART算法生成的决策树都是二叉树 6,C4.5 7,Adaboost 是一种迭代算法,核心是针对同一个训练集训练成不同的弱分类器,再把弱分类器组合成一个最终分类器。

文档评论(0)

1112111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档