文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

下载文档 降价啦

5
0
约5.72万字
约 105页
2017-08-21 发布于天津
举报
版权申诉
保障服务

文本自动聚类技术 - 北京大学计算机科学技术研究所.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本自动聚类技术 - 北京大学计算机科学技术研究所

文本挖掘技术(2013春) 第五章：文本自动聚类技术杨建武北京大学计算机科学技术研究所 Email:yangjw@pku.edu.cn 1 簇Cluster  簇Cluster: 数据对象的集合 在同一个簇中，数据对象是相似的 不同簇之间的对象是不相似的 2 聚类分析聚类分析是按照一定的规律和要求对事物进行簇划分的过程，在这一过程中没有任何关于簇划分的先验知识，没有指导，仅靠事物间的相似性作为簇划分的准则。 将一个数据集合划分成多个簇； 聚类分析是一种无监督分类，没有预定义的类 3 聚类分析：数据集的划分无标记的样本集空间划分空间覆盖 4 聚类分析的数学描述  聚类分析(Clustering) ：给定数据样本集X ｛X ,X ,…,X ｝，根据数据点间的相似程度将 1 2 n 数据集合分成k簇｛C ,C ,…,C ｝的过程称为聚 1 2 k 类分析。  簇记为C ＝｛X i,X i,…,X i ｝ i j 1 j 2 jni  Ci （i ＝1,…,k ）是X 的子集，且满足：  C ∪C ∪… ∪C ＝X 1 2 k  C ∩C ＝ф，i≠j 。 i j  相似样本在同一簇中，相异样本在不同簇中。 5 文本聚类  Document Clustering (DC) is partitioning a set of documents into groups or clusters  Clusters should be computed to  Contain similar documents  Separate as much as possible different documents  For instance, if similarity between documents is defined to capture semantic relatedness, documents in a cluster should deal with the same topics, and topics in each cluster should be different.