- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机软件及应用数据挖掘算法报告五条算法课件
数据挖掘经典算法概述;数据挖掘十大算法;
为了更加方便直观的理解算法,每一个算法都不会只是空洞的讲述原理及步骤,都会有一个实例进行讲解展示,从而可以更直观的了解算法是如何应用的。;算法一:C4.5;什么是分类?;什么是信息熵;熵的概念源自热物理学.假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。这时,系统进入另一种稳定状态,此时,信息熵最低。热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。;
也就是说,熵是描述系统混乱的量,熵越大说明系统越混乱,携带的信息就越少,熵越小说明系统越有序,携带的信息越多。;C4.5具体算法步骤;C4.5定义;C4.5定义;实例;;“Outlook”的信息增益最大,可知应该选择“Outlook”作为分裂点. ;接下来,继续上述过程.比如选择“Outlook=sunny”这个分支.现在要考虑计算剩
下的三个属性对应的信息增益. ;NO.;;上述只是完成了ID3;;树的终止;树的修剪 ;C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。;算法二:K-Means ;聚类;聚类图形化表示如图:;K次平均算法;K-Means步骤;实例:中国男足;;下面先对数据进行[0,1]规格化,下表是规格化后的数据; 接着用k-means算法进行聚类。设k=3,即将这15支球队分成三个集团。现抽取日本、巴林和泰国的值作为三个簇的种子,即初始化三个簇的中心为A:{0.3, 0, 0.19},B:{0.7, 0.76, 0.5}和C:{1, 1, 0.5} 下面,计算所有球队分别对三个中心点的相异度,这里以欧氏距离度量。下面是用程序求取的结果:; 从左到右依次表示各支球队到当前中心点的欧氏距离,将每支球队分到最近的簇,可对各支球队做如下聚类:中国C,日本A,韩国A,伊朗A,沙特A,伊拉克C,卡塔尔C,阿联酋C,乌兹别克斯坦B,泰国C,越南C,阿曼C,巴林B,朝鲜B,印尼C。
第一次聚类结果:
A:日本,韩国,伊朗,沙特;
B:乌兹别克斯坦,巴林,朝鲜;
C:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼。;下面根据第一次聚类结果,调整各个簇的中心点。
A簇的新中心点为:{(0.3+0+0.24+0.3)/4=0.21, (0+0.15+0.76+0.76)/4=0.4175, (0.19+0.13+0.25+0.06)/4=0.1575} = {0.21, 0.4175, 0.1575}(取簇中所有元素各自维度的算术平均数。)
用同样的方法计算得到B和C簇的新中心点分别为{0.7, 0.7333, 0.4167},{1, 0.94, 0.40625}。;用调整后的中心点再次进行聚类,得到:
第二次迭代后的结果为:
中国C,日本A,韩国A,伊朗A,沙特A,伊拉克C,卡塔尔C,阿联酋C,乌兹别克斯坦B,泰国C,越南C,阿曼C,巴林B,朝鲜B,印尼C。;结果无变化,说明结果已收敛,于是给出最终聚类结果:
亚洲一流:日本,韩国,伊朗,沙特
亚洲二流:乌兹别克斯坦,巴林,朝鲜
亚洲三流:中国,伊拉克,卡塔尔,阿联酋,泰国,越南,阿曼,印尼
看来数据告诉我们,说国足近几年处在亚洲三流水平真的是没有冤枉他们,至少从国际杯赛战绩是这样的。
其实上面的分析数据不仅告诉了我们聚类信息,还提供了一些其它有趣的信息,例如从中可以定量分析出各个球队之间的差距,例如,在亚洲一流队伍中,日本与沙特水平最接近,而伊朗则相距他们较远,这也和近几年伊朗没落的实际相符。 ;k均值算法的优点;K均值算法的缺点;算法三: Apriori算法 ;关联分析;Apriori算法的基本原理;例如:;实例;第二次扫描数据,找频繁项集为1的元素如右图: ;这里{I1,I4},{I3,I4},{I3,I5},{I4,I5}出现的次数都小于2,过滤掉,实际频繁项集为2的元素如右图: ;整个过程如下:;Apriori算法的不足;算法四:EM算法;步骤;实例;;(3) 假设上一步猜测的结果
您可能关注的文档
- 苏教版小学ppt课件数学五年级上第09册把一个大数改写成用万或亿作单位的小数.ppt
- 苏教版小学ppt课件语文三年级上第05册飞驰在高速公路上.ppt
- 苏教版小学ppt课件语文五年级上第09册师恩难忘.ppt
- 苏教版小学ppt课件数学四年级上第07册游戏规则的公平性.ppt
- 苏教版小学ppt课件语文六年级上第11册大自然的文字.ppt
- 苏教版小学ppt课件语文四年级上第07册一路花香.ppt
- 苏教版小学ppt课件语文六年级上第11册爱之链.ppt
- 苏教版小学三年级下册第十九课《放飞蜻蜓》最新课件.ppt
- 苏教版小学三年级上册西湖ppt课件图文.ppt
- 苏教版小学三年级下册语文ppt课件10大作家的小老师.ppt
- 计算机软件及应用五菱电控发动机故障码课件.ppt
- 计算机软件及应用第四五六讲课件.ppt
- 计算机软件及应用计算机操作系统第三版三课件.ppt
- 计算机软件及应用第4章多媒体演示文稿制作课件.ppt
- 计算机软件及应用项目五串行通信应用课件.ppt
- 计算机软件及应用计算机科学与技术方法论ch3计算学科中的三个学科形态兰州大学信息院人民邮电出版董荣盛课件.ppt
- 计算机软件及应用项目五视图和索引操作课件.ppt
- 认清人口状况说课稿(兼)课件.ppt
- 认数复习ppt课件(苏教版二年级下).ppt
- 认证考试2012届高考历史瀚海拾珍一轮复习ppt课件必修2第4单元第3课时当今世界经济的全球化趋势(人民版浙江专用).ppt
文档评论(0)