文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本自动聚类技术 - 北京大学计算机科学技术研究所

文本挖掘技术(2013春) 第五章: 文本自动聚类技术 杨建武 北京大学计算机科学技术研究所 Email:yangjw@pku.edu.cn 1 簇Cluster  簇Cluster: 数据对象的集合 在同一个簇中,数据对象是相似的 不同簇之间的对象是不相似的 2 聚类分析 聚类分析是按照一定的规律和要求对事 物进行簇划分的过程,在这一过程中没有 任何关于簇划分的先验知识,没有指导, 仅靠事物间的相似性作为簇划分的准则。 将一个数据集合划分成多个簇; 聚类分析是一种无监督分类,没有预定义的类 3 聚类分析:数据集的划分 无标记的 样本集 空间划分 空间覆盖 4 聚类分析的数学描述  聚类分析(Clustering) :给定数据样本集X {X ,X ,…,X },根据数据点间的相似程度将 1 2 n 数据集合分成k簇 {C ,C ,…,C }的过程称为聚 1 2 k 类分析。  簇记为C = {X i,X i,…,X i } i j 1 j 2 jni  Ci (i =1,…,k )是X 的子集,且满足:  C ∪C ∪… ∪C =X 1 2 k  C ∩C =ф,i≠j 。 i j  相似样本在同一簇中,相异样本在不同簇中。 5 文本聚类  Document Clustering (DC) is partitioning a set of documents into groups or clusters  Clusters should be computed to  Contain similar documents  Separate as much as possible different documents  For instance, if similarity between documents is defined to capture semantic relatedness, documents in a cluster should deal with the same topics, and topics in each cluster should be different.

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档