计算机软件及应用数据挖掘算法报告五条算法课件.pptVIP

下载本文档

5
0
约2.53千字
约 66页
2018-08-06 发布于贵州
举报
版权申诉

计算机软件及应用数据挖掘算法报告五条算法课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机软件及应用数据挖掘算法报告五条算法课件

数据挖掘经典算法概述;数据挖掘十大算法; 为了更加方便直观的理解算法，每一个算法都不会只是空洞的讲述原理及步骤，都会有一个实例进行讲解展示，从而可以更直观的了解算法是如何应用的。;算法一：C4.5;什么是分类？;什么是信息熵;熵的概念源自热物理学.假定有两种气体a、b，当两种气体完全混合时，可以达到热物理学中的稳定状态，此时熵最高。如果要实现反向过程，即将a、b完全分离，在封闭的系统中是没有可能的。只有外部干预（信息），也即系统外部加入某种有序化的东西（能量），使得a、b分离。这时，系统进入另一种稳定状态，此时，信息熵最低。热物理学证明，在一个封闭的系统中，熵总是增大，直至最大。若使系统的熵减少（使系统更加有序化），必须有外部能量的干预。; 也就是说，熵是描述系统混乱的量，熵越大说明系统越混乱，携带的信息就越少，熵越小说明系统越有序，携带的信息越多。;C4.5具体算法步骤;C4.5定义;C4.5定义;实例;;“Outlook”的信息增益最大，可知应该选择“Outlook”作为分裂点． ;接下来，继续上述过程．比如选择“Outlook=sunny”这个分支．现在要考虑计算剩下的三个属性对应的信息增益． ;NO.;;上述只是完成了ID3;;树的终止;树的修剪 ;C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。 C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。;算法二：K-Means ;聚类;聚类图形化表示如图：;K次平均算法;K-Means步骤;实例：中国男足;;下面先对数据进行[0,1]规格化，下表是规格化后的数据; 接着用k-means算法进行聚类。设k=3，即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个簇的种子，即初始化三个簇的中心为A：{0.3, 0, 0.19}，B：{0.7, 0.76, 0.5}和C：{1, 1, 0.5} 下面，计算所有球队分别对三个中心点的相异度，这里以欧氏距离度量。下面是用程序求取的结果：; 从左到右依次表示各支球队到当前中心点的欧氏距离，将每支球队分到最近的簇，可对各支球队做如下聚类：中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿曼C，巴林B，朝鲜B，印尼C。第一次聚类结果： A：日本，韩国，伊朗，沙特； B：乌兹别克斯坦，巴林，朝鲜； C：中国，伊拉克，卡塔尔，阿联酋，泰国，越南，阿曼，印尼。;下面根据第一次聚类结果，调整各个簇的中心点。 A簇的新中心点为：{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575}（取簇中所有元素各自维度的算术平均数。）用同样的方法计算得到B和C簇的新中心点分别为{0.7, 0.7333, 0.4167}，{1, 0.94, 0.40625}。;用调整后的中心点再次进行聚类，得到：第二次迭代后的结果为：中国C，日本A，韩国A，伊朗A，沙特A，伊拉克C，卡塔尔C，阿联酋C，乌兹别克斯坦B，泰国C，越南C，阿曼C，巴林B，朝鲜B，印尼C。;结果无变化，说明结果已收敛，于是给出最终聚类结果：亚洲一流：日本，韩国，伊朗，沙特亚洲二流：乌兹别克斯坦，巴林，朝鲜亚洲三流：中国，伊拉克，卡塔尔，阿联酋，泰国，越南，阿曼，印尼看来数据告诉我们，说国足近几年处在亚洲三流水平真的是没有冤枉他们，至少从国际杯赛战绩是这样的。其实上面的分析数据不仅告诉了我们聚类信息，还提供了一些其它有趣的信息，例如从中可以定量分析出各个球队之间的差距，例如，在亚洲一流队伍中，日本与沙特水平最接近，而伊朗则相距他们较远，这也和近几年伊朗没落的实际相符。 ;k均值算法的优点;K均值算法的缺点;算法三： Apriori算法 ;关联分析;Apriori算法的基本原理;例如：;实例;第二次扫描数据，找频繁项集为1的元素如右图： ;这里{I1,I4},{I3,I4},{I3,I5},{I4,I5}出现的次数都小于2，过滤掉，实际频繁项集为2的元素如右图： ;整个过程如下：;Apriori算法的不足;算法四：EM算法;步骤;实例;;(3) 假设上一步猜测的结果