基于免疫原理词表示的词相似度计算.docVIP

下载本文档

2
0
约1.16万字
约 14页
2016-09-08 发布于北京
举报
版权申诉

基于免疫原理词表示的词相似度计算.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于免疫原理词表示的词相似度计算.doc

基于免疫原理词表示的词相似度计算　　摘要：词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法，其基本思路是从语料中学习词的向量表示，基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法，并在SemEval 2012 Task 4数据上进行了验证并和其他方法进行比较，实验表明本文的方法是有效的，并且优于大多数比较系统。　　关键词：词相似度；词表示；免疫原理；分布式语义假设　　中图分类号：TP391.41 文献标识号：A 文章编号：2095-2163（2014）02- 　　Word Similarity Measure based on Immune Principles Inspired Word Representation 　　YANG Jinfeng， GUAN Yi 　　（School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）　　Abstract： Word similarity measure is important to researches on natural language processing， information extraction， etc. Corpus based similarity computing is a most important type of methods for the task， by which word vector-representations are learnt from corpuses and are applied for word similarity measure with a cosine function. This research proposes a new method for word similarity computing based on immune principles inspired word representations. The proposed method is validated on the data set of SemEval 2012 Task 4 and is compared with other published researches. Experimental results show that the proposed method is effective and outperforms most other published researches. 　　Keywords： Word Similarity； Word Representation； Immune Principle； Distributional Hypothesis 　　0 引言　　面向词的语义相似度问题主要体现在两个方面的研究，一个是基于属性相似的词语义相似度，一个是基于模式相似的词关系相似度[1]。本研究主要关注基于属性相似的词语义相似度计算。如果两个词之间有较高的属性相似度，那么称这两个词为义词。词相似度计算是为了挖掘语义相似的词或者相关的词，用于缓解数据稀疏的问题，因而在自然语言处理、信息抽取、信息检索等任务中发挥重要作用，比如特征抽取、查询扩展、问句匹配等。词语义相似度计算方法主要有两类，一类是基于词典或叙词表的方法，这类方法的典型特点是通过计算词典中与两个词相关联的边的数量计算词的相似度；另一类方法是基于语料的方法，这类方法的典型特点是获取词的上下文信息，处于相似上下文的词具有一定的相似度[2]。第二类方法不受限于词典的规模，可扩展性好，逐渐成为主流方法。本研究采用第二类方法，从语料中学习词的向量表示，并基于词表示计算词的相似度。现有的词表示方法研究都不具备持续学习能力，无法适应新的语料或者新的领域。为此，一种新的基于适应性免疫原理的多词主体自治学习模型[3]和基于免疫原理的词表示方法[4]被提出来。基于免疫原理的词表示实际上也是从词所在的语句中获取与该词相关的上下文信息，因而基于免疫原理的词表示用于词相似度计算是很自然的应用点。本文提出一种新的基于免疫原理词表示的词相似度计算方法，并在SemEval 2012 Task 4数据上进行了验证。通过对比实验证明，本文提出的词相似度计算方法不仅可行、而且有效。　　1 相关工作　　词相似度计算在应用中具有非常重要的意义，因而该研究一直备受关注。基于词典的方法简单易行，并且准确率较高，但是受限