基于向量空间的文档聚类算法分析.docVIP

下载本文档

4
0
约4.54千字
约 8页
2018-03-16 发布于北京
举报
版权申诉

基于向量空间的文档聚类算法分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于向量空间的文档聚类算法分析　　摘要：随着科技的发展，网络信息迅速增加，而文本聚类技术则成为web文本挖掘中的研究热点。该文详细介绍了文档聚类算法中的基于划分的k-means算法，对于k-means算法的缺陷，又介绍了对k-means算法有所改善的k中心点算法，并比较二者的优缺点。　　关键词：文档聚类；向量空间模型；k-means算法；k中心点算法　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)20-4781-02 　　互联网在全球的迅速普及使得人们获取信息的途径有了很大的改变，越来越多的人依赖于网络来获取所需的信息。但随着internet技术的发展，网络信息也呈现了爆炸式增长，网络信息的海量与繁杂使得用户不能很快速有效的找到自己所需要的信息。尤其是对于网络新闻，虽然报道立场各不相同，但是在内容上存在较大冗余，为了帮助网民在尽可能短的时间内了解特定网络新闻的内容要点，这就需要对网络媒体的相似新闻报道有效地整合在一起，方便阅读。在这里，文档聚类就显得尤为重要。　　1 文档聚类　　通俗的讲，文档聚类就是将内容相似的文档聚集为一个类中。这样，可以将一个文档集分组为几个聚类簇，使得同类文档的相似度尽可能大，而不同类的文档间相似度尽可能小，以达到文档分类的目的。文档聚类是一种无监督的机器学习方法，不需要训练过程，没有任何关于划分的先验知识和指导，仅仅依靠文档间的相似度作为文档集合划分的准则，因此具有一定的灵活性和自动化处理能力，成为文本挖掘领域越来越多的人研究的热点。　　目前，聚类的方法主要有以下几种：划分法（partitioning methods），层次法（hierarchical methods），基于密度的方法（density-based methods），基于网格的方法（grid-based methods），基于模型的方法（model-based methods）。其中最常用的文档聚类算法是基于划分的k-means算法。　　2 向量空间模型　　向量空间模型是一种用来表示文档的方法，它的思想是将文档分解为由词条特征构成的向量。具体做法是将文档进行分词，然后计算文档中每个词条的权重，权重计算可以利用TF-IDF算法，由计算得到的权重构成一个矢量空间，即形成这个文档的向量空间。例如，文档Dj可以表示成如下的向量空间：　　Dj=（W1j，W2j，…，Wij，…Wmj）　　其中，m表示文档D中分词的特征词条数；Wij为词条ti在文档Dj中的权重。　　3 k-means算法　　3.1 文档相似度　　k-means算法是利用多个文档形成的对应的向量空间来计算各个文档的相似性，从而对多个文档进行聚类。K-means算法计算文档向量的相似度是采用基于距离的方法，即文档之间的相似性是通过计算文档向量之间的距离来表示的，空间向量的距离用如下公式表示: 　　距离越小，则两个文档间的相似度就越大。当然，也可以用余弦值来表示相似度。　　3.2 k-means算法具体分析　　k-means算法进行文档聚类的基本思想是：　　1）首先确定聚类的个数k，即簇的数目k；　　2）随机选取k个文档对象，作为初始聚类质心；　　3）计算剩余的文档向量到每个聚类质心的距离，将剩余文档分配到距离它最近的一个聚类质心的划分；　　4）计算每个簇的文档对象的均值向量，作为新的聚类质心；　　5）重复3）、4），直到k个聚类不再发生变化，即k个簇的聚类质心不再发生变化，或者准则函数收敛为止。　　通常采用的准则函数是平方误差准则，其公式如下：　　其中，X∈Ci，表示X是簇Ci里对象，mi是簇Ci的质心。　　下面，通过具体的例子来进一步了解k-means算法。　　假设有六个文档，空间向量分别为X1=（1,0），X2=（2,4），X3=（1,1），X4=（3,3），X5=（2,1），X6=（4,3），为计算简单起见，假定为二维的。聚类个数k为2。　　首先，随机选取k=2个向量作为初始的聚类质心，为m1=X3，m2=X5。　　然后将剩余向量分配到距离最近的聚类质心所形成的划分中：　　d2（X1，m1）=（1-1）2+（0-1）2=1 　　d2（X1，m2）=（1-2）2+（0-1）2=2 　　因此，X1属于m1对应的簇中。　　同理可得，X2属于m2，X4属于m2，X6属于m2。　　则第一次划分后得到的两个聚簇分别为C1=（X1，X3），C2=（X2，X4，X5，X6）。　　再分别计算两个簇的质心：m1=（1，0.5）；m2=（2.75，2.75）　　计算平方误差　　E12 =[(1-1)2+(0-0.5)2]+[(1-1)