基于谱聚类的文本相似性研究.pdfVIP

下载本文档

0
0
约5.88千字
约 9页
2023-03-25 发布于浙江
举报
版权申诉

基于谱聚类的文本相似性研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于谱聚类的文本相似性研究摘要：为了克服自然语言表达形式的多样性和文本分类的粗略性，将潜在语义分析和谱聚类方法结合起来对语料库进行处理，构造一个语义空间，最终使用向量空间模型对文本进行相似性计算。实验证明，该方法可有效提高语义相似性计算的准确度。关键词：语义相似性；语义结构；潜在语义分析；谱聚类；语义空间 1 语义空间 1.1 潜在语义分析潜在语义分析(Latent Semantic Analysis，简称LSA)的主要思想是：将文档视为以词汇为坐标系构成的多维空间中的点，这些点的分布并非是随机无规律的，而是服从某种语义结构。它将词条文档矩阵进行奇异值分解，经过处理并保留原矩阵 M 的最佳二次逼近后，可以将原来的高维文档映射到低维的语义向量空间中，从而呈现出一些潜在的语义结构。由于词语关系矩阵的维数比较高，将原始的词语关系矩阵 Mm*n 按照奇异值分解为 M=U 刀XT，其中Um*m,刀m*n,Vn*n 给后续计算处理带来了极大的困难。因此本文对原始的词语关系矩阵进行潜在语义分析，利用近似矩阵来逼近 M，即为M 找到一个合适的秩r 来逼近M。是 Frobenius 范数意义下的M 的最小二次逼近，其定义如下： =r 刀 ~rTr minM — F 三刀一U 刀~VTF 三 min 刀 ni=1( ® i-si)2=min 刀 ni 二 r+1 ® 2i 其中，刀~仅包含了艺的前r 个元素，即刀~的秩为r,而且秩可以根据应用问题所要求的精度进行调整。在代数矩阵理论中，小奇异值对应着小的特征向量，取刀前 r 大个奇异值实际上就把一些很小的奇异值对应的特征向量“忽略”了，即忽略了语义相关性较弱的词，保留了语义相关性较强的词，达到了去除冗余特征和噪音的目的。 1.2 相似度矩阵优化谱聚类算法对于相似矩阵而言其性能非常敏感，所以构造相似矩阵的好坏对谱聚类算法是非常重要的。词 -词矩阵反映的仅仅只是词与词之间的关联关系，即二值邻接矩阵。但二值邻接矩阵并不能反映出词与词之间在语义上的相似性度量，所以使用谱聚类算法对语义相似的词语进行聚类并不能得到比较理想的结果，本文在此对词 -词关联矩阵采用空间向量和余弦法进行优化。空间向量：词-词矩阵的第i 行表示第i 个词的n 维向量，即第i 个词与其它n 个词的相关性，用Vi 来表示。余弦法：词与词之间语义上的相似性度量 S 可表示为(其中词语本身的相似性度量为1): S(i,j)=S(j,i)=Vi • Vjnorm(Vi) norm(Vj) i 半 j 1i=j 优化后的词-词语义相似度矩阵 W 表示为: W=1S(1,2)S(1,3), S(1,n) S(2,1)1S(2,3), S(2,n) S(3,1)S(3,2)1, S(3,n) S( n,1)S( n, 2)S( n,3) 1 该矩阵反映的是词与词之间在语义上的近似程度，这就为从语义上分析文本相似度奠定了很好的基础。 1.3 语义空间构造通过谱聚类的算法对上述词-词语义相似度矩阵W 进行聚类，即语义相近或相关的词聚为一类，使聚类结果投影到 N 维平面中，通过N 维平面中点与点之间的欧氏距离来衡量词与词的语义相似性程度，该距离则为词语间的语义距离。下文将详细论述如何通过拉普拉斯谱聚类计算二维平面中的语义距离。拉普拉斯矩阵定义为L=D-W，其中D 为G 的度矩阵，W 为G 的二值邻接矩阵。依据拉普拉斯矩阵的定义：L=D-W，在本文中D 为相似度矩阵 W 的度数矩阵： D=diag(kn)， kn 二 sum(Wn*n) 其中向量kn 为相似度矩阵 Wn*n 行向量的和，D 为向量kn 构成的对角矩阵。 d为特征值向量满足关系：{0=入1?入2?入3?,?入n}, v为对应的特征向量矩阵假