文本自动聚类技术.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本自动聚类技术

文本挖掘技术(2012春) 第五章: 文本自动聚类技术 杨建武 北京大学计算机科学技术研究所 Email:yangjw@pku.edu.cn 1 簇Cluster  簇Cluster: 数据对象的集合 在同一个簇中,数据对象是相似的 不同簇之间的对象是不相似的 2 聚类分析 聚类分析是按照一定的规律和要求对事 物进行簇划分的过程,在这一过程中没有 任何关于簇划分的先验知识,没有指导, 仅靠事物间的相似性作为簇划分的准则。 将一个数据集合划分成多个簇; 聚类分析是一种无监督分类,没有预定义的类 3 聚类分析:数据集的划分 无标记的 样本集 空间划分 空间覆盖 4 聚类分析的数学描述  聚类分析(Clustering) :给定数据样本集X {X ,X ,…,X },根据数据点间的相似程度将 1 2 n 数据集合分成k簇 {C ,C ,…,C }的过程称为聚 1 2 k 类分析。  簇记为C = {X i,X i,…,X i } i j 1 j 2 jni  Ci (i =1,…,k )是X 的子集,且满足:  C ∪C ∪… ∪C =X 1 2 k  C ∩C =ф,i≠j 。 i j  相似样本在同一簇中,相异样本在不同簇中。 5 文本聚类  Document Clustering (DC) is partitioning a set of documents into groups or clusters  Clusters should be computed to  Contain similar documents  Separate as much as possible different documents  For instance, if similarity between documents is defined to capture semantic relatedness, documents in a cluster should deal with the same topics, and topics in each cluster should be different.

文档评论(0)

zsmfjy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档