第九讲 文本聚类.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九讲 文本聚类

第九讲 文本聚类 回顾-信息检索 概论 文档处理 检索模型 索引、查询与相关反馈 性能评估 结构数据查询与多媒体检索 XML文档检索 Web信息搜索 文本聚类 简介 研究内容 特点 意义 聚类算法 层次(Hierarchical Methods) 划分(Partitioning Methods) 密度(Density-based Methods) 简介 二十世纪六七十年代,信息检索界开始了对文本聚类的研究。 定义:按照某种相似性度量方法把相似或相关的文档归成组。 目标 同一个聚类(组)中的文档间相似性尽可能高 不同聚类(组)中的文档之间相似性尽可能低 特点 采用无指导方式( unsupervised manner )发现聚类,不需要带有类标注的训练文档 Text Clustering Vs. Tex Classifying Clustering Example 聚类-模糊性 意义 提高检索的查准率 相似文档一般对相同查询相关度比较高。 提高向量空间模型的检索速度 物理上或逻辑上相似的文档放在一起形成一个类,因此有利于提高检索效率。 提供导航 把多个文档聚集在一起,提供用户在聚类层次上浏览文档集,而不需要浏览每篇文章。因此有助于帮助用户快速定位到有用的信息区域。 提高向量空间模型的检索速度 在向量空间模型中,目标是找到与查询向量最邻近的文档向量。 需要计算查询与每个文档之间的相似性 Too slow! 聚类方法 事先把文档集合中的文档聚成k类; 找出与查询最邻近的文档聚类Ci ; 把Ci类中文档排序返回给用户; Comments 可能不精确,但避免了大量计算 文档导航 对给定文档集合,把它聚成多组相关文档集 给出主题分类树; 允许用户在主题分类结构中浏览并定位所需信息; 关键问题: 为每个主题给出有意义的标签 Example –Vivisimo (/) 聚类核心问题 文档表示 Bag of words, VSM 相似性度量 理想:语义上相似 实际:统计上相似 度量方法 Cos() 欧式距离 算法 聚类算法分类 层次算法(Hierarchical algorithms) 自低向上 凝聚(agglomerative) 自顶向下 分裂(divisive) 平面算法( “flat” algorithms) 划分 随机选择文档集的初始划分 通过迭代精练聚类 密度 层次聚类 利用文档集构造树型层次分类结构 凝聚 Vs. 分裂 凝聚 聚类初始时把每个点(文档向量)作为一个聚类,在随后的处理过程中,把最相似的两个聚类组合成一个新的聚类 。 分裂 聚类初始时把所有点作为一个大的聚类,在随后的处理中,根据分裂的准则不断地分解聚类。 相对而言,凝聚比分裂容易处理。因此,层次聚类算法大多采用凝聚方式。 Hierarchical Agglomerative Clustering (HAC) 指定相似性度量方法 聚类初始时把每个点(文档向量)作为一个聚类 把最相似的两个聚类组合成一个新的聚类 重复合并过程,直至剩下最后一个大类 聚类融合过程就产生一个树状层次结构 HAC 算法 初始化处理:令k = n; ci = Di,1? i ?n。--- 初始化阶段认为每篇文档是一个聚类。 如果k = 1,则结束;否则转入步骤3。 计算所有的聚类之间的相似度sij = simality(ci, cj),其中1? i ? j ? k,找出两个聚类,它们之间的相似度最大,不失一般性,记这两个聚类为ci, cj。 把ci, cj融合成一个新聚类。不失一般性,用ci表示这个新聚类。 删除cj,置k = k-1,转入步骤2。 聚类相似度 文档相似度: sim(di, dj). 向量夹角余弦 聚类间相似度: 聚类中心点(Centroid):用中心向量表示聚类,聚类间相似度采用向量夹角余弦。 单链(Single Link):两个聚类间最相似文档的相似度来表示聚类相似度。 全链(Complete Link):两个聚类间最不相似文档的相似度来表示聚类相似度。 组平均(Group Average):两个聚类间文档的平均相似度来表示聚类相似度。 其它方法 聚类中心点层次聚类 每个聚类由一个聚类中心向量表示 多个聚类可形成“超聚类”, “超聚类”又可生成上一级“超聚类”。 聚类表示 – 聚类中心(Centroid) 采用聚类中心表示聚类直观、且便于处理 聚类中心 可以用聚类中的任何一个文档向量来表示 通过统计手段来获取 典型定义 wci 是第i个索引项在聚类中心的权值 wij是第i个索引项在第j个文档向量中的权值 m是聚类中文档总数 聚类中心计算 标准 简化:剔除权值过低的索引项 消除“噪音”项 权值为多少才算过低 有可能把有用的索引项删除 聚类表示 –

文档评论(0)

asd522513656 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档