- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语义相似度的计算方法研究
信息与计算科学 余牛 指导教师:冉延平
摘 要 语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器翻译等很多领域中都有广泛的应用.特别是近几十年来随着Internet技术的高速发展,语义相似度计算成为自然语言处理和信息检索研究的重要组成部分.本文介绍了几种典型的语义相似度的计算方法,总结了语义相似度计算的两类策略,其中重点介绍了一种基于树状结构中语义词典Hownet的语义相似度计算方法,最后对两类主要策略进行了简单的比较.
关键词 语义相似度;语义距离;知网;语料库
The Reseach of Computing Methods about Semantic Similarity
YU Niu
(Department of Mathematics and Statistics,Tianshui Normal University , 741000)Abstract Semantic similarity is broadly used in many applications such as information retrieval, information extraction, text classification, word sense disambiguation, example-based machine translation and so on. Especially with the rapid development of Internet technology in recent decades, Calculation of semantic similarity has always been an important part of natural language processing and information retrieval research This paper introduces several main methods of calculating semantic similarity , then two strategies of semantic similarity measurement are summarized, and we focuse on the Hownet based on the stucture of tree and use them to calculate the semantic similarity ,and finally the two strategies are easily compared .
Key words Semantic similarity, Semantic distance,Hownet, Corpus
1引言
语义相似度计算研究的是用什么样的方法来计算或比较两个词语的相似性.自然语言的词语之间有着非常复杂的关系,在实际应用中,有时需要把这种复杂的关系用一种简单的数量来度量,而语义相似度就是其中的一种.词语的语义相似度计算主要有两种方法:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息(本文只介绍了主要的理论方法),运用统计的方法进行求解.对于前一类基于树状层次结构的计算语义相似度方法的研究已经比较成熟,国外的Dekang Lin, Rudi L.Cilibrasi等都给出了自己的比较合理的语义相似度计算公式和方法;国内这方面起步较晚,但发展很快,董振东,刘群,李素建等在这方面的研究做了很多开创性的工作,李峰,杨哲,李熙,夏天等后来者做了很多补充性和改进性的工作. 针对以上研究现状,笔者对当前的语义相似度研究成果进行了简单的归纳和总结,然后对相关方法进行了简单比较,并提出了研究的应用方向,以供相关研究人员参考和应用.
2语义相似度
什么是语义相似度?语义相似度是一个主观性相当强的概念,没有明确的客观标准可以衡量.脱离具体的应用去谈论语义相似度,很难得到一个统一的定义.由于词语在语言结构中的一般性,我们着重研究词语的相似度,进而推广到句子,以致整个文本的相似度.
Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differentces),然后从信息论的角度给出了定义公式:
(1)
其中,分子表示描述共性所需要的信息量;分母表示完整地描述所需要的信息量.
刘群,李素建以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构
文档评论(0)