- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于词语多原型向量表示句子相似度计算方法
一种基于词语多原型向量表示的句子相似度计算方法
摘 要: 针对词语向量化表示的问题,根据词语词向量表示的思想以及借助多义词词典,在K-means聚类多义词语上下文表示的基础上,获得词语的多原型向量表示。对句子中的多义词语,通过计算词语多原型向量表示与词语上下文表示的相似度来进行词义消歧,根据2个句子集中共有词语和差异词语的词义相似度,给出一种基于词语多原型向量表示的句子相似度?算方法,实验结果显示了该方法的有效性。
关键词: 词语多原型向量表示;词义消歧;句子相似度
Abstract:In view of vectorized representation of word according to the idea of Word Embedding as well as the use of external polysemy dictionary on the basis of polysemous words context representation based on K-means clustering algorithm,the paper presents a method for obtaining a words multi-prototype vector representation. Word sense disambiguation is performed on polysemous words in sentences by calculating the similarity between the word multi-prototype vector representation and the words context representation. According to the semantic similarity of the common words and the difference words in the two sentence sets a sentence similarity computation method based on multi-prototype vector representation is given. The experimental results show the effectiveness of the method.
Key words: multi-prototype vector representation;word sense disambiguation;sentence similarity
引言
词语是语言的基本组成单元,词语的向量表示在自然语言处理任务中有着广泛的应用。词语词向量表示(Word Embedding或Word Representation)是基于大语料库利用词语的上下文为每一个词语构建一个向量表示,通常能够保留词语的语义和句法的信息。这种词向量表示能够作为一个特征或输入用在信息检索、文本分类、自动文本摘要等自然语言处理的研究中。
大多数的词向量表示方法都使用一个向量表示一个词语(单向量表示),单向量表示无法有效地传达多义词语的不同词义。针对这个问题,Reisinger等人于2010年[1]提出了一个多原型向量空间模型,其中每个词语的上下文首先将会聚类为簇,通过对聚类簇内词语所有的上下文向量表示进行平均生成词语不同的原型向量。Huang等人则在2012年[2]遵循这一思想,基于神经网络语言模型,结合词语全局语义信息利用K-means算法聚类每个词语的上下文表示,并在语料库中将每个词语的出现情况标记为其所关联的聚类类别,再训练获得词语的多个词向量表示。Guo等人又在2014年[3]利用双语平行语料库学习生成词语特定语义的词向量表示,基于源语言中具有不同意义的同一词语在外语中应有不同翻译这一原理,通过聚类词语翻译,并映射回原语言语料库中对应的词语,训练获得一个词语的情境语义表示。这些基于聚类的模型通过聚类词语上下文来开展无监督的词义归纳,对原文词语的上下文直接进行聚类或者利用跨语言知识进行语义映射后聚类,再训练获得词语在不同语境中具体词义对应的词向量表示。
同一时期,Chen等人也在2014年[4]提出了联合词义表示和消歧的统一模型,根据WordNet知识库对词语的注释说明生成词语的语义向量,对多义词语进行词义消歧,修改Skip-gram模型训练目标来联合学习词语的词向量和语义向量。继而,Niu等人更在2017年[5]结合知网将词语词义的义原信息融入到词语表示学习模型中,提升了词向量的表示能力。这类方法借助外部知识库(WordNet或HowNet)对词语
文档评论(0)