北京大学之Text_Clustering文本聚类算法.pptVIP

下载本文档

4
0
约5.23千字
约 45页
2018-05-13 发布于四川
举报
版权申诉

北京大学之Text_Clustering文本聚类算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Text Clustering II Wang Jimin Nov 25, 2005 Outline 引言文本间距离与文本类间的距离聚类方法层次方法划分方法 SOM方法聚类结果的评价聚类聚类是对数据对象进行划分的一种过程，与分类不同的是，它所划分的类是未知的，故此，这是一个“无指导的学习” 过程，它倾向于数据的自然划分。文本聚类（Text clustering）: 将文本集合分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差别较大。它是聚类分析技术在文本处理领域的一种应用。层次聚类方法凝聚的方法(agglomerative)，也称自底向上（bottom-up）分裂的方法（divisive），也称自顶向下（top-down）还有许多变形（改进）方法，如BIRCH,CURE等 Outline 引言文本间距离与文本类间的距离聚类方法层次方法划分方法 SOM方法聚类结果的评价划分方法对包含n个文档的文本集合，划分将生成k个分组，k=n，每一个分组代表一个聚类聚类的准则函数通常选用平方误差准则典型的划分方法（Partitioning methods）: k-平均方法 k-中心点方法 The K-Means Clustering Method Example k-平均算法 step1. 任意选择k个对象作为初始的类的中心 step2. repeat step3. 根据类中文档的平均值,将每个文档 (重新)赋给最相近的类 step4. 更新类的平均值， step5. until 不再发生变化,即没有对象进行被重新分配时过程结束。 K-Means 特点该算法试图找出使平方误差值最小的k个划分。当结果簇是密集的，而簇与簇之间区分明显时，它的效果较好。算法复杂度O（nkt），其中 t是迭代次数。因此其可扩展性较好，对大数据集处理有较高的效率。算法常以局部最优结束。全局最优要穷举所有可能的划分。缺点：不适合发现非凸面状的簇。不适合大小差别较大的簇。对于噪声和孤立点是敏感的，由于少量的该类数据对平均值产生较大的]影响。有多种变形形式 k-平均方法有多种变形形式，不同改进在于：初始k个平均值的选择相异度的计算计算类平均值产生较好聚类结果的一个有趣策略：首先用层次聚类方法决定结果簇的个数，并找到初始的聚类然后用迭代重定位来改进聚类结果。 k-中心点（k-modoid）方法 PAM（partitioning around medoid）是最早提出的k-中心点方法之一。它选用簇中位置最靠近中心的对象作为代表对象（中心点），试图对n个对象给出k个划分。最初随机选择k个对象作为中心点，该算法反复用非代表对象（非中心点）代替中心点，试图找出更好的中心点，以改进聚类结果的质量。 k-中心点（k-modoid）方法在每次迭代中，所有可能的对象对被分析，每个对中的一个对象是中心点，而另一个是非中心点。对所有可能的组合，估算聚类结果的质量。一个对象Oi被可以使最大平方误差减少的对象代替。在一次迭代中产生的最佳对象集合成为下次迭代的中心点。判定一个对象Oh是否是当前一个代表对象Oi的好替代，对每一个非代表对象Oj需要分情况考虑替换的代价。 PAM PAM 对非代表对象Oj来说，上图给出了Oh替代Oi所化的代价。遍历所有j即得到总交换代价TCih 。该代价函数反映了替换前后平方误差值之间的差别。若总代价为负，Oh可以替代Oi，否则说明当前的中心点是可接受的，在本次迭代中不发生变化。 k-中心点（k-modoid）算法 step1. 任意选择k个对象作为初始的类的中心点 step2. repeat step3. 指派每个剩余对象给离它最近的中心点 step4. 随机选择一个非中心点Oh step5. 计算用Oh代替中心点Oi的总代价 S step6. if S0, then Oh代替中心点Oi 形成新的k个中心点集合 until 不再发生变化。 Example ? 5个节点，熟悉其实际计算过程 Exercise ? 算法性能有效消除了对孤立点数据的敏感性。比k-means方法更健壮，不易受极端数据的影响。 PAM对小数据集非常有效（如100个对象聚成5类），但对大数据集效率较低。可扩展性差。 PAM算法的改进: CLARA CLARA（Cluster LARger Application）: 基于k-medoid类型的算法，能处理较大的数据集合。 ?首先进行随机抽样，用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的，它应该足以代表原来的