.lecture_notes_cluster_2.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture_notes_cluster_2

Web Based Information Architectures 课程之 文本聚类部分的内容 第 4 节 基于划分的文本聚类方法 1.对包含n 个文档的文本集合,划分将生成 k 个分组,k=n ,每一个分组代表 一个聚类。 聚类的准则函数通常选用平方误差准则: k 2 E ∑ ∑ | p =−m | i i 1 p=∈Ci 典型的划分方法(Partitioning methods ): k-平均方法、 k- 中心点方法 2 . k-平均算法 step1. 任意选择 k 个点作为初始的类的中心 step2. repeat step3. 根据类中文档的平均值,将每个文档(重新)赋给最相近的类 step4. 更新类的平均值, step5. until 不再发生变化,即没有对象被进行重新分配时过程结束。 3. 举例: 在 ppt 上 4 . 特点: 该算法试图找出使平方误差值最小的 k 个划分。当结果簇是密集的,而簇与 簇之间区分明显时,它的效果较好。 算法复杂度 O (nkt ),其中 t 是迭代次数。因此其可扩展性较好,对大数据 集处理有较高的效率。 算法常以局部最优结束。全局最优要穷举所有可能的划分。 缺点: 不适合发现非凸面状的簇。不适合大小差别较大的簇。对于噪声和孤立 点是敏感的,由于少量的该类数据对平均值产生较大的]影响。 5 .k-平均方法有多种变形形式: 不同改进在于:初始 k 个平均值的选择,相异度的计算、计算类平均值。 6 .产生较好聚类结果的一个有趣策略: 首先用层次聚类方法决定结果簇的个数,并找到初始的聚类,然后用迭代重 定位来改进聚类结果。 ================== k- 中心点(k-modoid )方法 1. PAM (partitioning around medoid )是最早提出的 k- 中心点方法之一。它选用 簇中位置最靠近中心的对象作为代表对象(中心点),试图对 n 个对象给出 k 个 划分。 最初随机选择 k 个对象作为中心点,该算法反复用非代表对象(非中心点) 代替中心点,试图找出更好的中心点,以改进聚类结果的质量。 在每次迭代中,所有可能的对象对被分析,每个对中的一个对象是中心点, 而另一个是非中心点。对所有可能的组合,估算聚类结果的质量。一个对象Oi被 可以使最大平方误差减少的对象代替。在一次迭代中产生的最佳对象集合成为下 次迭代的中心点。 2 .判定一个对象O 是否是当前一个代表对象O 的好替代,对每一个非代表 h i 对象O 需要分情况考虑替换的代价。 j 对非代表对象O 来说,上图给出了O 替代O 所化的代价。遍历所有j 即得到 j h i 总交换代价TCih 。该代价函数反映了替换前后平方误差值之间的差别。 若总代价为负,O 可以替代O ,否则说明当前的中心点是可接受的,在本次 h i 迭代中不发生变化。 3 . k- 中心点(k-modoid )算法 step1. 任意选择 k 个对象作为初始的类的中心点 step2. repeat step3. 指派每个剩余对象给离它最近的中心点 step4. 随机选择一个非中心点Oh step5. 计算用O 代替中心点O 的总代价 S h i step6. if S0, then Oh代替中心点Oi 形成新的k个中心点集合 until 不再发生变化。 4. 算法执行实例 5. 算法性能分析 有效消除了对孤立点数据的敏感性。比 k-means 方法更健壮,不易受极端数 据的影响。 PAM 对小数据集非常有效

文档评论(0)

rovend + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档