第十章 k_means文档聚类初值选择算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刘远超等 :一种改进的 kmeans 文档聚类初值选择算法 一种改进的 kmeans 文档聚类初值选择算法① ② 刘远超  王晓龙  刘秉权 ( 哈尔滨工业大学计算机科学与技术学院  哈尔滨 150001) 摘  要  提出了一种改进的基于最小最大原则的 kmeans 文档聚类初始值选择算法。该 方法首先构造相似度矩阵 ,然后利用最小最大原则对相似度矩阵进行分析 ,从而选择初始 聚点并自动确定聚类 k 值。实验结果表明利用该方法找到的 k 值比较接近真实值。 关键词  文档聚类 , kmeans , 最小最大原则 , 相似度矩阵 始种子点、聚类个数 k 、初始划分等。并且初始划分 0  引 言 的好坏对最终聚类的质量有较大影响。选择初始聚 点一般有经验选择、随机选择、最小最大原则[11 ] 等 如何对充斥在网络上的文本信息进行有效的组 方法 ,其中最小最大原则主要依据待聚类对象的相 织、摘要和导航是信息时代中的一个迫切需要解决 似情况选择初始聚点 ,从而克服了随机选择的盲目 的课题。作为数据挖掘和知识发现领域中的一种非 性 ,对经验知识的依赖也较小。传统上一般通过最 常重要的工具 ,文档聚类可以将语义或者主题相近 小最大原则选择初始聚点 ,本文对该方法进行了改 的文档聚合在一起 ,并揭示隐藏在后面的相同概念 , 进 ,提出了一种同时选择聚点和 k 值的方法 ,对比实 因而引起了研究人员的广泛关注。文档聚类是很多 验表明取得了较好的聚类效果。 [1 ] 自然语言处理应用的预处理步骤 ,也可以用于对 用户指定的感兴趣文档进行聚类分析 ,从而发现用 1  文档聚类 户的兴趣模式[2 ] 。聚类技术在信息检索上也逐渐得 到应用 , 目前有些搜索引擎已经将聚类技术集成在 文档聚类是一种无监督的过程 , 即不依赖任何 一起 , 如 Vivisimo ( http :/ / www. vivisimo. com/ ) 、In 关于集合划分的先验知识 ,而仅仅根据集合内部的 fonetware ( http :/ / www. infonetware. com/ ) 等 , 使信息 文档对象彼此之间的相似度按照某种准则对文档集 获取效率获得较大的提高。 合进行划分。其依据是著名的聚类假设 : 同一类中 目前比较经典的文档聚类算法有层次聚合聚类 的文档彼此之间的相似度较大 ,而不同类的文档相 算法和基于划分的聚类算法。层次聚合聚类算法是 似度较小。文档相似度一般采用“向量空间模型 + 比较常见的聚类算法之一。但是当文档集合数据量 余弦相似度”的模式来进行计算。任何两个文档向 较大时 ,这种算法计算开销较大。有很多方法可以 量 A 、B 之间的余弦相似度以公式 用来确定层次聚合聚类算法中下一对将要被融合的 n [3 ] [4 ] [5 ] wA wB 类别 , 如 UPGMA

文档评论(0)

xuefei111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档