第十章 k_means文档聚类初值选择算法.pdfVIP

下载本文档

12
0
约2.58万字
约 5页
2017-06-07 发布于北京
举报
版权申诉

第十章 k_means文档聚类初值选择算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

刘远超等 :一种改进的 kmeans 文档聚类初值选择算法一种改进的 kmeans 文档聚类初值选择算法① ② 刘远超　王晓龙　刘秉权 ( 哈尔滨工业大学计算机科学与技术学院　哈尔滨 150001) 摘　要　提出了一种改进的基于最小最大原则的 kmeans 文档聚类初始值选择算法。该方法首先构造相似度矩阵 ,然后利用最小最大原则对相似度矩阵进行分析 ,从而选择初始聚点并自动确定聚类 k 值。实验结果表明利用该方法找到的 k 值比较接近真实值。关键词　文档聚类 , kmeans , 最小最大原则 , 相似度矩阵始种子点、聚类个数 k 、初始划分等。并且初始划分 0 　引言的好坏对最终聚类的质量有较大影响。选择初始聚点一般有经验选择、随机选择、最小最大原则[11 ] 等如何对充斥在网络上的文本信息进行有效的组方法 ,其中最小最大原则主要依据待聚类对象的相织、摘要和导航是信息时代中的一个迫切需要解决似情况选择初始聚点 ,从而克服了随机选择的盲目的课题。作为数据挖掘和知识发现领域中的一种非性 ,对经验知识的依赖也较小。传统上一般通过最常重要的工具 ,文档聚类可以将语义或者主题相近小最大原则选择初始聚点 ,本文对该方法进行了改的文档聚合在一起 ,并揭示隐藏在后面的相同概念 , 进 ,提出了一种同时选择聚点和 k 值的方法 ,对比实因而引起了研究人员的广泛关注。文档聚类是很多验表明取得了较好的聚类效果。 [1 ] 自然语言处理应用的预处理步骤 ,也可以用于对用户指定的感兴趣文档进行聚类分析 ,从而发现用 1 　文档聚类户的兴趣模式[2 ] 。聚类技术在信息检索上也逐渐得到应用 , 目前有些搜索引擎已经将聚类技术集成在文档聚类是一种无监督的过程 , 即不依赖任何一起 , 如 Vivisimo ( http :/ / www. vivisimo. com/ ) 、In 关于集合划分的先验知识 ,而仅仅根据集合内部的 fonetware ( http :/ / www. infonetware. com/ ) 等 , 使信息文档对象彼此之间的相似度按照某种准则对文档集获取效率获得较大的提高。合进行划分。其依据是著名的聚类假设 : 同一类中目前比较经典的文档聚类算法有层次聚合聚类的文档彼此之间的相似度较大 ,而不同类的文档相算法和基于划分的聚类算法。层次聚合聚类算法是似度较小。文档相似度一般采用“向量空间模型 + 比较常见的聚类算法之一。但是当文档集合数据量余弦相似度”的模式来进行计算。任何两个文档向较大时 ,这种算法计算开销较大。有很多方法可以量 A 、B 之间的余弦相似度以公式用来确定层次聚合聚类算法中下一对将要被融合的 n [3 ] [4 ] [5 ] wA wB 类别 , 如 UPGMA