- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本自动聚类技术 - 北京大学计算机科学技术研究所
文本挖掘技术(2013春)
第五章:
文本自动聚类技术
杨建武
北京大学计算机科学技术研究所
Email:yangjw@pku.edu.cn
1
簇Cluster
簇Cluster: 数据对象的集合
在同一个簇中,数据对象是相似的
不同簇之间的对象是不相似的
2
聚类分析
聚类分析是按照一定的规律和要求对事
物进行簇划分的过程,在这一过程中没有
任何关于簇划分的先验知识,没有指导,
仅靠事物间的相似性作为簇划分的准则。
将一个数据集合划分成多个簇;
聚类分析是一种无监督分类,没有预定义的类
3
聚类分析:数据集的划分
无标记的
样本集
空间划分 空间覆盖
4
聚类分析的数学描述
聚类分析(Clustering) :给定数据样本集X
{X ,X ,…,X },根据数据点间的相似程度将
1 2 n
数据集合分成k簇 {C ,C ,…,C }的过程称为聚
1 2 k
类分析。
簇记为C = {X i,X i,…,X i }
i j 1 j 2 jni
Ci (i =1,…,k )是X 的子集,且满足:
C ∪C ∪… ∪C =X
1 2 k
C ∩C =ф,i≠j 。
i j
相似样本在同一簇中,相异样本在不同簇中。
5
文本聚类
Document Clustering (DC) is partitioning a set
of documents into groups or clusters
Clusters should be computed to
Contain similar documents
Separate as much as possible different documents
For instance, if similarity between documents is
defined to capture semantic relatedness,
documents in a cluster should deal with the same
topics, and topics in each cluster should be
different.
您可能关注的文档
- 萎技术与方法皇 - 生物化学与生物物理进展.pdf
- 卫生部医政司关于建设“全国安全合理用药监测网”有关问题专家研讨 .doc
- 卫生福利统计专区-专业人力统计资料.pdf
- 维系爱情关系的挑战.ppt
- 卫生统计信息工作 - 国家卫生计生委.doc
- 卫生统计学精品课程建设与应用模式的探索与创新 - 教学成果奖.pdf
- 卫星定位、导航系统.doc
- 维普-2015标准版.ppt
- 卫星视频运动目标检测算法 - 液晶与显示.pdf
- 卫星直播系统综合接收解码器(标清卫星地面双模型)技术要求和测量 .pdf
- 文件:溱湖国家湿地公园湿地生态监测系统具体参数.doc
- 文件信息管控中心(oic) faq - huawei.pdf
- 文科系学生の心理统计の授业理解に 影响を与える要因 - 东京未来大学.pdf
- 文科系学生の心理统计の授业理解に 影响を与える要因についての予备 .pdf
- 文献检索 - 图书馆.ppt
- 纹理分析法识别静止卫星红外云图和监测汛期强对流天气系统.pdf
- 纹理分析法识别静止卫星红外云图和监测汛期强对流 - 中国干旱气象网.pdf
- 文献计量学理论与应用 - 北京大学医学图书馆.pdf
- 稳定性水泥浆体在岩体裂隙中的流动性能及其灌浆技术.pdf
- 稳健贝叶斯方法在指数保费原理下的应用①.pdf
文档评论(0)