基于谱聚类的文本相似性研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于谱聚类的文本相似性研究 摘要:为了克服自然语言表达形式的多样性和文本分类的粗略性, 将 潜 在语义分析和谱聚类方法结合起来对语料库进行处理, 构造一个语 义空 间,最终使用向量空间模型对文本进行相似性计算。实验证明, 该方法 可有效提高语义相似性计算的准确度。 关键词:语义相似性;语义结构;潜在语义分析;谱聚类;语义 空 间 1 语义空间 1.1 潜在语义分析 潜在语义分析(Latent Semantic Analysis,简称LSA)的主要思想 是:将文档视为以词汇为坐标系构成的多维空间中的点, 这些点的分 布 并非是随机无规律的, 而是服从某种语义结构。 它将词条文档矩阵 进 行奇异值分解,经过处理并保留原矩阵 M 的最佳二次逼近后,可 以将原 来的高维文档映射到低维的语义向量空间中, 从而呈现出一些 潜在的语 义结构。 由于词语关系矩阵的维数比较高, 将原始的词语关系矩阵 Mm*n 按 照奇异值分解为 M=U 刀XT,其中Um*m,刀m*n,Vn*n 给后续计算 处理 带来了极大的困难。 因此本文对原始的词语关系矩阵进行潜在语 义分 析,利用近似矩阵来逼近 M,即为M 找到一个合适的秩r 来逼 近M。是 Frobenius 范数意义下的M 的最小二次逼近,其定义如下: =r 刀 ~rTr minM — F 三刀一U 刀~VTF 三 min 刀 ni=1( ® i-si)2=min 刀 ni 二 r+1 ® 2i 其中,刀~仅包含了艺的前r 个元素,即刀~的秩为r,而且秩可 以根 据应用问题所要求的精度进行调整。 在代数矩阵理论中,小奇异值对应着小的特征向量,取刀前 r 大 个 奇异值实际上就把一些很小的奇异值对应的特征向量“忽略”了, 即忽 略了语义相关性较弱的词,保留了语义相关性较强的词,达到了 去除冗 余特征和噪音的目的。 1.2 相似度矩阵优化 谱聚类算法对于相似矩阵而言其性能非常敏感,所以构造相似矩 阵 的好坏对谱聚类算法是非常重要的。词 -词矩阵反映的仅仅只是词 与词之间的关联关系,即二值邻接矩阵。但二值邻接矩阵并不能反映 出 词与词之间在语义上的相似性度量,所以使用谱聚类算法对语义相 似的 词语进行聚类并不能得到比较理想的结果,本文在此对词 -词关 联矩阵采用空间向量和余弦法进行优化。 空间向量:词-词矩阵的第i 行表示第i 个词的n 维向量,即第i 个词 与其它n 个词的相关性,用Vi 来表示。 余弦法:词与词之间语义上的相似性度量 S 可表示为(其中词语 本 身的相似性度量为1): S(i,j)=S(j,i)=Vi • Vjnorm(Vi) norm(Vj) i 半 j 1i=j 优化后的词-词语义相似度矩阵 W 表示为: W=1S(1,2)S(1,3), S(1,n) S(2,1)1S(2,3), S(2,n) S(3,1)S(3,2)1, S(3,n) S( n,1)S( n, 2)S( n,3) 1 该矩阵反映的是词与词之间在语义上的近似程度,这就为从语义 上 分析文本相似度奠定了很好的基础。 1.3 语义空间构造 通过谱聚类的算法对上述词-词语义相似度矩阵W 进行聚类,即 语义相 近或相关的词聚为一类,使聚类结果投影到 N 维平面中,通 过N 维平面中点与点之间的欧氏距离来衡量词与词的语义相似性程 度, 该距离则为词语间的语义距离。 下文将详细论述如何通过拉普拉 斯谱聚 类计算二维平面中的语义距离。 拉普拉斯矩阵定义为L=D-W,其中D 为G 的度矩阵,W 为G 的二值 邻接矩阵。依据拉普拉斯矩阵的定义:L=D-W,在本文中D 为相似度矩阵 W 的度数矩阵: D=diag(kn), kn 二 sum(Wn*n) 其中向量kn 为相似度矩阵 Wn*n 行向量的和,D 为向量kn 构成 的 对角矩阵。 d为特征值向量满足关系:{0=入1?入2?入3?,?入n}, v为 对应的特征向量矩阵 假

文档评论(0)

吴老师 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档