一种新的文本聚类算法.docxVIP

下载本文档

2
0
约8.08千字
约 7页
2023-09-16 发布于广东
举报
版权申诉

一种新的文本聚类算法.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新的文本聚类算法 0 基于夹角余弦系数的文本聚类分析 frenet分布模式（ap）是2007年frey和dueck提出的一种新的聚类算法。它具有速度快、效率高、无需指定聚类数、更适合解决不同欧洲的空间问题（例如，不满足对称或三角形等）以及大规模稀疏矩阵的计算。因此，它被用来识别脸色识别、检测基因、搜索最佳路线、码书设计和实物成像。接收子传播算法的基本思想是将所有样本视为网络节点，并根据网络上每个边的消息传输来计算每个样本的收集中心。在聚类过程中，每个节点都会发送两种消息，即集资能力和归因度。集群结果取决于样本数和消息传输。文本聚类是文本挖掘中的一种重要方法.通常采用向量空间模型来进行描述.其中,每一个单词都作为特征空间的一维,每一个样本都作为特征空间的一个向量.文本向量空间模型中常用夹角余弦系数(cosine coefficient)来度量向量间的相似性,其计算公式如下: s=|X∩Y||X|1/2|Y|1/2,(1) 其中,|X∩Y|代表文本向量X和Y共同包含的特征.|X|和|Y|代表两个文本各自包含的特征词的个数.欧氏空间中,X=(x1,…,xn),Y=(y1,…,yn),其计算公式转化为 s=n∑i=1xiyi(n∑i=1x2i)1/2(n∑i=1y2i)1/2.(2) 基于夹角余弦系数的向量空间方法简单直接,但样本数目的增加会使得向量空间矩阵变得非常高维而且稀疏.传统方法通常需要在进行特征选择或降维之后再进行文本聚类,因此需要花较长时间,且效果不够理想.鉴于吸引子传播算法具备处理非欧空间问题的能力及其高效的特性,本文尝试利用基于非欧空间相似性度量的吸引子传播算法处理文本聚类问题. Frey和Dueck在文献中给出了寻找文章中心句以及搜索最优航线的非欧空间相似性度量方法.同时指出在这两个例子中,相似性分别有97%和36%是不满足欧氏空间对称性的;而第2个例子中还有97%的相似性不满足三角不等式.在他们工作的启发下,我们从文本间的差异信息和结构信息出发,提出了一种基于相似特征集、排斥特征集和仲裁特征集的新的非欧空间相似性度量方法,并提出了新的聚类算法:权吸引子传播算法(weight affinity propagation, WAP).由于这种算法采用了新的相似性度量,不需要建立基于全局特征的高维稀疏矩阵,所以能够在不进行特征选择和降维的条件下进行聚类.因而解决了传统聚类算法因计算高维稀疏矩阵导致计算复杂度较高的问题.另外,由于该算法在聚类时,不需要提前指定簇类的数目,大大提高了算法的实用性及灵活性. 为了进行比较分析,我们把本文提出的WAP算法与k-means聚类算法、具备非线性特征的SOFM聚类算法以及采用经典相似性度量的吸引子传播算法3种经典聚类算法进行了比较.k-means算法是由MacQueen于1967年提出的.该算法的应用非常广泛,曾被评为数据挖掘中最具影响力的10种算法之一.它的特点是能够快速收敛到极值,缺点是需要事先知道簇类的数目并且容易陷入局部极值.自组织特征映射神经网络(SOFM)是由芬兰学者Kohonen等人于1981年提出的一种非线性聚类算法.目前,该算法已经被广泛的应用到工程学、医学、经济学等多个领域.该算法的特点是能够实现非线性映射,缺点是计算量大且样本输入顺序会影响聚类效果.采用经典相似性度量的吸引子传播算法(affinity propagation with cosine coefficient,APCC)是指采用夹角余弦系数度量相似性,然后结合吸引子传播算法进行聚类.实验结果表明,WAP算法明显优于上述3种算法. 1 基于最优证据的估计和更新消息矩阵设数据集合为D={d1,d2,…,dN},聚类问题就是要把该集合中的样本按照某种度量划分成若干簇类,使得类间距离极大化,类内距离极小化.描述样本间相似程度的统计量很多,目前用得最多的是距离和相似性. 吸引子传播算法以样本之间的相似性作为输入,输出为簇类中心以及各样本与簇类中心的所属关系.算法中引入了两类在样本之间传递的消息:吸引度(responsibility)和归属度(availability).设样本i和j属于数据集合D.候选类代表样本j从每个数据样本i中搜集证据r(i,j)(称为样本j对样本i的吸引度)来描述样本j适合作为样本i的类代表的程度; 归属度为样本i从候选类代表j搜集证据a(i,j)(称为点i对点j的归属度)来描述样本i选择样本j作为其类代表的适合程度.证据越强(即r(i,j)与a(i,j)之和越大),点j作为最终聚类中心的可能性就越大.计算和更新消息矩阵的方法分别如式(3)(4)(5)所示: r(i,j)=s(i,j)-maxj′{a(i,j′)+s(i,j′)},j′≠j;(3)a(i,j)={min{0,r(j