词汇语义相似度算法探究和应用.docVIP

下载本文档

2
0
约2.88千字
约 6页
2017-11-28 发布于福建
举报
版权申诉

词汇语义相似度算法探究和应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

词汇语义相似度算法探究和应用

词汇语义相似度算法探究和应用　　摘要：介绍了当前国内外有关词汇语义相似度算法的研究现状，分析并对比了几种具有代表性的计算方法，并将几种常用的词汇语义相似度算法应用于FAQ中，分别采用准确率、召回率、F值以及MRR、MAP5个指标进行评价，根据相似问句的检索效果判断各词语相似度算法的优劣。关键词关键词：语义相似度；FAQ；VSM；HowNet 中图分类号：TP314 文献标识码：A 文章编号文章编号2013）007005702 0 引言词汇的语义相似度在自然语言处理领域有着不可替代的意义和作用。然而词汇之间的语义关系是非常复杂的，使用一个简单的数值很难来度量词汇之间含义的相似程度。同样的一对词语，在一方面看可能非常相似，但是换个角度就可能相差甚远。所以，研究词语语义相似度离不开具体的应用背景，例如，在机器翻译应用中，词汇语义相似度用来衡量中文和英文文本中，中文单词与中文词语之间是否可替换；而在信息检索中，词汇语义相似度要体现用户查询所使用的关键词与用户实际查询目的在语义上是否一致。 1 词语相似度研究现状词语相似度主要分为基于语义本体资源、基于统计算法和将前两者融合的混合技术3种方法：利用语义资源计算词语相似度也可称为基于本体（或知识库）的词语相似度算法，主要根据专家人工建立的语义网络计算相似度。利用统计技术计算词语间语义相似度采用的是无监督的机器学习算法，分为基于大规模语料库和基于普通词典等方法。混合技术则结合统计技术和语义资源，取长补短，提高相似度计算的正确率。 1.1 基于语义资源的词语相似度算法近年来，一些诸如同义词词林、WordNet、知网这种大规模可量化的语言本体的诞生与发展，为进行真实文本的语义分析和理解提供了强有力的资源支持。特别是最近几年“知网”等语义资源不断丰富发展，中文语义研究方向逐渐增多。知网作为一个知识系统，是一个网而不是树，它主要反映概念的共性和个性，同时知网还着力反映概念之间和概念属性之间的各种关系。而词语DEF之间的路径距离则代表了词汇语义的聚合程度。 1.2 基于统计的语义相似度算法基于统计的语义相似度方法建立在如果两个词语的含义相同或相近，则伴随它们同时出现的上下文也相同或相近。该方法主要以词语的上下文信息的概率分布作为相似度参考，计算的方法主要包含有向量空间模型（VSM）、词语共现信息、基于部分语法分析和改进的基于大规模语料库的方法。 1.3 基于混合技术的语义相似度算法基于大规模语料统计的算法相对专家手工建立的语义资源更加客观，但每种统计模型的创建都受语料库中数据质量的极大干扰，如不可避免的数据稀疏和数据噪声都直接影响最终的相似度计算结果。基于语义资源的算法执行起来简单有效，但语义资源建设需要专业人士耗费人力物力，同时严重受建设者的主观意识影响。所以，一种语义与统计相融合的词语相似度算法应运而生，通过发挥两种算法各自的优势进行词汇间的语义相似度的计算。混合算法能够利用本体知识对稀疏数据进行扩充，从而在一定程度上解决数据稀疏的问题。 2 词语相似度应用实验 FAQ即常见问题库，它一般作为自动问答系统的子部分存在。比如“百度知道”，每当用户输入一个问题时，首先可以查找与之相似的问题及其对应的答案。所以FAQ主要用来搜集用户提问频率较高的问题，并将它对应的答案一起进行存储。当用户需要输入一个新的查询问题时，FAQ首先可以在搜集存储的常见问题库中查找与其相似的问题，如果找到了相同的问句，就将该问句的相关答案抽取出来，并作为最终答案返回给用户。但是由于汉语表现形式的多样性，同样一个问题往往有多种表现形式，因此在FAQ中很难查找到一模一样的问句。在FAQ中进行问答行为的过程，实际是计算用户提交问句与常见问题库中问句间句子语义相似程度的过程。本文为实现FAQ查询功能，采用向量空间模型（VSM）计算用户提交问句与常见问题库中问题例句间的相似程度，而句子相似度的计算依赖于词汇语义之间的相似度，本文使用基于语义（知网）、基于统计（上下文点互信息）和语义统计相融合的相似度算法作为词汇语义的权值，通过VSM算法计算句子间相似程度，并对其进行对比实验，最终根据FAQ中检索的相似问句效果来比较上述算法间的优劣。 2.1 基于向量空间模型的句子相似度算法向量空间模型（Vector Space Model，简称VSM）最初用在信息检索（IR）中用来对用户查询和语料库文档建模，如今已经得到了广泛的应用，如在句子或文档的表示中，就是通过句子中去掉停用词后剩下的有效词来构成向量空间，然后在该向量空间中将待计算的句子进行向量化，以两个向量夹角的余弦值作为句子之间的相似度度量。 2.2