K均值文献阅读报告.doc

下载文档 降价啦

8
0
约4.96千字
约 17页
2017-04-23 发布于贵州
举报
版权申诉
保障服务

K均值文献阅读报告.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K均值文献阅读报告K均值文献阅读报告.doc

模式识别文献阅读报告及心得体会学生姓名：刘凯班学号： 075114 20111001740 08 指导老师：马丽在过去的三个星期里，我读了5篇文献，分类算法有两大类，一是聚类算法，二是有监督的分类算法。我比较喜欢前者，因为我觉得聚类算法更适合于对很多未知数据集进行数据信息的挖掘，有一种“自动化”处理的意味。作为最经典的算法——K均值算法，就是本文所要讨论的东西。我读的这些文献中，所有算法都是针对传统K均值算法进行优化后的的结果。 5篇文献都来源于中国知网，我把它们进行排序分类，前两篇主要讨论传统k均值算法易陷入局部最优值的改进，后三篇都是对初始类心的优化算法，我发现文献之间是有联系的，为此，针对同一个问题的改进，后一篇的文章基本上都优于前一篇。第一篇：基于遗传???法的K均值聚类分析 1.摘要：传统的k均值算法对初始聚类中心敏感，聚类结果随不同的初始输入而波动，容易陷入局部最优值。于是本文讲k均值算法的局部寻优能力与遗传算法的全局寻优能力相结合，在自适应交叉概率和变异概率的遗传算法中引入k均值操作，以克服传统k均值算法的局部性和对初始类心的敏感性。 2.算法核心思想：遗传算法是一种模拟生物在自然环境中的遗传和进化过程而形成的自适应全局优化搜索算法。其最优解的搜索过程模仿了生物的进化过程，使用遗传操作数作用于群体进行遗传操作，进而得到新一代群体。本质上是一种求解问题的高效并行全局搜索算法。它能在搜索过程中自动获取和积累有关搜索空间的知识，并自适应地控制搜索过程。作者想在种群进化中引入k均值操作，同时为了避免早熟现象，在种群中采用自适应方法动态调节交叉概率和变异概率，使其能随适应度自动改变。 3.数据实验与分析：文章中实验数据主要来源于 /pub/machine-learning-databases/,数据分为iris、glass、wine.其中iris有4个属性，glass有9个属性，wine有13个属性。实验的种群大小为30，最大迭代次数100，重复20次。结果如下：从实验中可以看出，传统k均值算法不一定每次都能达到最优解，而基于遗传的k均值算法每次都可以；而且后者平均迭代次数也较少。 4.总结：这种算法克服了传统的k均值算法对初始类心敏感的问题，并且可以得到最优解。 5.我的评价：从实验结果来看，该算法确实达到了预期目标，但是美中不足的是作者给出的实验数据集的数据量太少了，种群大小才30，那么对于大批量数据结论是否还成立呢？从这个意义上讲,该算法优越性还不能完全证实。 6.文献信息：文章编号：1000-3428(2008)20-0200-03 文献标识码：A 中图分类号：TP301 作者：赖玉霞，刘建平，杨国兴。第二篇：基于粒子群的K均值算法 1.摘要：粒子群优化算法（PSO）是一种源于对鸟类捕食行为的研究而发明的进化技术，同上一篇遗传算法相比，PSO不但具有全局寻优能力，通过参数调整，PSO还具有较强的局部寻优能力，并且PSO算法更为简单，适合于计算机编程处理。作者发现，在大多数情况下，本算法比遗传算法更快收敛于最优解，而且可以避免完全随机寻优的退化现象。 2.算法核心思想：粒子群算法由美国人Kemedy和Eberhar提出，粒子通过不断调整自己的位置X来搜索新解，每个粒子都能记住自己搜索到的最好解Pid，以及整个粒子群经历过的最好位置Pgd,每个粒子都有一个速度V且 Vid是粒子在第d维上的速度，其余参数类推。具体算法可描述为：初始化粒子群，随机设定各粒子初始位置X和速度V;然后计算各粒子适应度值，将该粒子适应度值与Pid、Pgd的适应度值作比较，以最优值更新Pid、Pgd;由上述公式调整粒子速度和位置；直到达到条件或最大迭代次数。数据实验与分析：作者取了400个二维点，比较了三种算法（基于遗传的k均值，传统k均值和粒子k均值算法），取样规模均为20，迭代30次。结果如下：分析知，传统k均值算法对初始类心敏感且易陷入局部最小值，遗传算法优于传统算法，但是样本数量大时也会陷入最小值，而粒子群算法具有较强的全局寻优能力，而且每次都能收敛到最优点。 4.总结：理论与实践表明，基于粒子群的k均值算法能克服传统算法存在的问题，全局寻优秀能力优于基于遗传的k均值算法，具有较快的收敛速度。 5.我的评价：此算法效果很好，但是有一大缺陷，那就是数据计算量太大，正如作者所言，每个粒子的速度V有k*d维，位置X也是k*d维，更新起来计算量是很大的。 6.文献信息：文章编号：1000-6788(2005)06-0054-05 文