- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于谱聚类的文本相似性研究
摘要:为了克服自然语言表达形式的多样性和文本分类的粗略性, 将 潜
在语义分析和谱聚类方法结合起来对语料库进行处理, 构造一个语 义空
间,最终使用向量空间模型对文本进行相似性计算。实验证明, 该方法
可有效提高语义相似性计算的准确度。
关键词:语义相似性;语义结构;潜在语义分析;谱聚类;语义 空
间
1 语义空间
1.1 潜在语义分析
潜在语义分析(Latent Semantic Analysis,简称LSA)的主要思想
是:将文档视为以词汇为坐标系构成的多维空间中的点, 这些点的分 布
并非是随机无规律的, 而是服从某种语义结构。 它将词条文档矩阵 进
行奇异值分解,经过处理并保留原矩阵 M 的最佳二次逼近后,可 以将原
来的高维文档映射到低维的语义向量空间中, 从而呈现出一些 潜在的语
义结构。
由于词语关系矩阵的维数比较高, 将原始的词语关系矩阵 Mm*n 按
照奇异值分解为 M=U 刀XT,其中Um*m,刀m*n,Vn*n 给后续计算 处理
带来了极大的困难。 因此本文对原始的词语关系矩阵进行潜在语 义分
析,利用近似矩阵来逼近 M,即为M 找到一个合适的秩r 来逼 近M。是
Frobenius 范数意义下的M 的最小二次逼近,其定义如下:
=r 刀 ~rTr
minM — F 三刀一U 刀~VTF 三
min 刀 ni=1( ® i-si)2=min 刀 ni 二 r+1 ® 2i
其中,刀~仅包含了艺的前r 个元素,即刀~的秩为r,而且秩可 以根
据应用问题所要求的精度进行调整。
在代数矩阵理论中,小奇异值对应着小的特征向量,取刀前 r 大 个
奇异值实际上就把一些很小的奇异值对应的特征向量“忽略”了, 即忽
略了语义相关性较弱的词,保留了语义相关性较强的词,达到了 去除冗
余特征和噪音的目的。
1.2 相似度矩阵优化
谱聚类算法对于相似矩阵而言其性能非常敏感,所以构造相似矩 阵
的好坏对谱聚类算法是非常重要的。词 -词矩阵反映的仅仅只是词
与词之间的关联关系,即二值邻接矩阵。但二值邻接矩阵并不能反映 出
词与词之间在语义上的相似性度量,所以使用谱聚类算法对语义相 似的
词语进行聚类并不能得到比较理想的结果,本文在此对词 -词关
联矩阵采用空间向量和余弦法进行优化。
空间向量:词-词矩阵的第i 行表示第i 个词的n 维向量,即第i 个词
与其它n 个词的相关性,用Vi 来表示。
余弦法:词与词之间语义上的相似性度量 S 可表示为(其中词语 本
身的相似性度量为1):
S(i,j)=S(j,i)=Vi • Vjnorm(Vi) norm(Vj) i 半 j
1i=j
优化后的词-词语义相似度矩阵 W 表示为:
W=1S(1,2)S(1,3), S(1,n)
S(2,1)1S(2,3), S(2,n)
S(3,1)S(3,2)1, S(3,n)
S( n,1)S( n, 2)S( n,3) 1
该矩阵反映的是词与词之间在语义上的近似程度,这就为从语义 上
分析文本相似度奠定了很好的基础。
1.3 语义空间构造
通过谱聚类的算法对上述词-词语义相似度矩阵W 进行聚类,即 语义相
近或相关的词聚为一类,使聚类结果投影到 N 维平面中,通
过N 维平面中点与点之间的欧氏距离来衡量词与词的语义相似性程 度,
该距离则为词语间的语义距离。 下文将详细论述如何通过拉普拉 斯谱聚
类计算二维平面中的语义距离。
拉普拉斯矩阵定义为L=D-W,其中D 为G 的度矩阵,W 为G 的二值
邻接矩阵。依据拉普拉斯矩阵的定义:L=D-W,在本文中D 为相似度矩阵
W 的度数矩阵:
D=diag(kn), kn 二 sum(Wn*n)
其中向量kn 为相似度矩阵 Wn*n 行向量的和,D 为向量kn 构成 的
对角矩阵。
d为特征值向量满足关系:{0=入1?入2?入3?,?入n}, v为
对应的特征向量矩阵
假
文档评论(0)