第九讲文本聚类.pptVIP

下载本文档

78
0
约5.67千字
约 60页
2018-02-26 发布于河南
举报
版权申诉

第九讲文本聚类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第九讲文本聚类

第九讲文本聚类回顾－信息检索概论文档处理检索模型索引、查询与相关反馈性能评估结构数据查询与多媒体检索 XML文档检索 Web信息搜索文本聚类简介研究内容特点意义聚类算法层次（Hierarchical Methods）划分（Partitioning Methods）密度（Density-based Methods）简介二十世纪六七十年代，信息检索界开始了对文本聚类的研究。定义：按照某种相似性度量方法把相似或相关的文档归成组。目标同一个聚类（组）中的文档间相似性尽可能高不同聚类（组）中的文档之间相似性尽可能低特点采用无指导方式（ unsupervised manner ）发现聚类，不需要带有类标注的训练文档 Text Clustering Vs. Tex Classifying Clustering Example 聚类－模糊性意义提高检索的查准率相似文档一般对相同查询相关度比较高。提高向量空间模型的检索速度物理上或逻辑上相似的文档放在一起形成一个类，因此有利于提高检索效率。提供导航把多个文档聚集在一起，提供用户在聚类层次上浏览文档集，而不需要浏览每篇文章。因此有助于帮助用户快速定位到有用的信息区域。提高向量空间模型的检索速度在向量空间模型中，目标是找到与查询向量最邻近的文档向量。需要计算查询与每个文档之间的相似性 Too slow! 聚类方法事先把文档集合中的文档聚成k类；找出与查询最邻近的文档聚类Ci ；把Ci类中文档排序返回给用户； Comments 可能不精确，但避免了大量计算文档导航对给定文档集合，把它聚成多组相关文档集给出主题分类树；允许用户在主题分类结构中浏览并定位所需信息；关键问题：为每个主题给出有意义的标签 Example –Vivisimo (/) 聚类核心问题文档表示 Bag of words, VSM 相似性度量理想：语义上相似实际：统计上相似度量方法 Cos() 欧式距离算法聚类算法分类层次算法（Hierarchical algorithms）自低向上凝聚（agglomerative）自顶向下分裂（divisive）平面算法（ “flat” algorithms）划分随机选择文档集的初始划分通过迭代精练聚类密度层次聚类利用文档集构造树型层次分类结构凝聚 Vs. 分裂凝聚聚类初始时把每个点（文档向量）作为一个聚类，在随后的处理过程中，把最相似的两个聚类组合成一个新的聚类。分裂聚类初始时把所有点作为一个大的聚类，在随后的处理中，根据分裂的准则不断地分解聚类。相对而言，凝聚比分裂容易处理。因此，层次聚类算法大多采用凝聚方式。 Hierarchical Agglomerative Clustering (HAC) 指定相似性度量方法聚类初始时把每个点（文档向量）作为一个聚类把最相似的两个聚类组合成一个新的聚类重复合并过程，直至剩下最后一个大类聚类融合过程就产生一个树状层次结构 HAC 算法初始化处理：令k = n； ci = Di，1? i ?n。--- 初始化阶段认为每篇文档是一个聚类。如果k = 1，则结束；否则转入步骤3。计算所有的聚类之间的相似度sij = simality(ci, cj)，其中1? i ? j ? k，找出两个聚类，它们之间的相似度最大，不失一般性，记这两个聚类为ci, cj。把ci, cj融合成一个新聚类。不失一般性，用ci表示这个新聚类。删除cj，置k = k-1，转入步骤2。聚类相似度文档相似度: sim(di, dj). 向量夹角余弦聚类间相似度：聚类中心点（Centroid）：用中心向量表示聚类，聚类间相似度采用向量夹角余弦。单链（Single Link）：两个聚类间最相似文档的相似度来表示聚类相似度。全链（Complete Link）：两个聚类间最不相似文档的相似度来表示聚类相似度。组平均（Group Average）：两个聚类间文档的平均相似度来表示聚类相似度。其它方法聚类中心点层次聚类每个聚类由一个聚类中心向量表示多个聚类可形成“超聚类”， “超聚类”又可生成上一级“超聚类”。聚类表示 – 聚类中心（Centroid）采用聚类中心表示聚类直观、且便于处理聚类中心可以用聚类中的任何一个文档向量来表示通过统计手段来获取典型定义 wci 是第i个索引项在聚类中心的权值 wij是第i个索引项在第j个文档向量中的权值 m是聚类中文档总数聚类中心计算标准简化：剔除权值过低的索引项消除“噪音”项权值为多少才算过低有可能把有用的索引项删除聚类表示 –

您可能关注的文档

文档评论（0）

asd522513656 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第九讲 文本聚类.pptVIP