汉语词语相似度计算方法分析.docVIP

  • 18
  • 0
  • 约3.61千字
  • 约 7页
  • 2019-08-23 发布于北京
  • 举报
PAGE PAGE 1 汉语词语相似度计算方法分析   【摘要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域,词语相似度计算等领域有着广泛的应用,本文对词语相似度计算方法进行了介绍,并侧重介绍了基于《知网》的词语相似度计算方法。最后对常用的两类计算方法进行了对比。   【关键词】词语相似度计算;知网   1.什么是词语相似度   汉语最基本的语义和语法单位就是词语,词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。本文认为,词语相似度就是词语在语义上的匹配程度,取值范围为[0,1]。词语相似度的值越大,说明两个词语的语义越相近;反之,则说明两个词语的语义差别越大。特殊的,当值为1时,表明两个词语的语义完全相同;当值为0时,表明两个词语的语义完全不同。   2.词语相似度计算方法   词语相似度计算方法大体上可以分为以下两类:   2.1基于语料库统计的方法   这种方法综合体现了词语在句法、语义还有语用等方面的异同。该方法属于基于统计的定量分析方法,其应用前提是:两个词语语义相似,当且仅当它们处于相似的上下文环境中。思想是统计大规模的语料,利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。该方法能够相对精确、有效的度量词语的语义相似度。   比如计算词语相似度也可以利用词语的相关性来进行。方法是事先选择一组特征词,接着计算这一组特征词与每一个词语的相关性,一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据,对于每一个词都可以得到一个特征词向量。两个词的相似度就可以通过这些向量之间的相似度来衡量。而向量之间的相似度,一般通过计算向量之间的夹角余弦值得出。   2.2基于某种世界知识(Ontology)的计算方法   该方法一般利用语义词典来进行词语相似度计算。基于语义词典的词语相似度计算方法,以语言学和人工智能两方面为基础。它基于语义词典,根据概念之间的上下位关系、同义关系进行计算。这种方法建立在这样的前提下:当且仅当两个词语在概念间的结构层次网络图中存在一条通路(上下位关系)时,这两个词语具有语义相关性。这种方法简单有效且易于理解。   这类方法的基础是大规模的语义计算知识资源。在英文方面,WordNet、FrameNet、MindNet等是具有代表性的例子;在汉语方面,《知网》(HowNet)、《同义词词林》、中文概念词典(CCD)等是几种主要的知识资源,很多学者尝试利用它们来计算词语相似度。目前常用的词语相似度计算方法,就是基于《知网》的相似度计算,下面将对它进行介绍。   3.基于《知网》的词语相似度计算   3.1《知网》的简介   《知网》(HowNet)是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。《知网》的描述对象是词语代表的概念,它揭示了概念之间、以及概念所具备的属性之间的关系。它将词汇所代表的概念分为四大类,分别是实体、事件、属性、属性值。并通过义原(所谓义原,是不可再分的语义单位)来标注概念。《知网》由多个数据文件构成,是一个网状的有机知识系统,为人们进行自然语言处理的研究提供了宝贵的资源。   3.2《知网》的结构   《知网》中两个最基础的概念是“概念”和“义原”。“概念”是用来描述词语语义。因为一个词可以含有多个语义,所以一个词需要多个概念来描述。使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。《知网》中的不可再分的、最小的意义单位是“义原”。即用义原用来描述概念,用概念来描述词语。   《知网》作为一个知识系统,它主要反映了概念的共性和个性。通过对汉字详实的分析考察,《知网》采用的义原有1500个。知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系。   义原之间组成的不是一个树状结构,而是一个复杂的网状结构。然而义原关系中最重要的是上下位关系。所有的“基本义原”以这种上下位关系为基础构成了义原层次体系。该体系是树状结构,叫做义原分类树。义原分类树囊括了各个义原,以及义原和义原之间的联系。在义原分类树中,父节点义原和子节点义原之间具有上下位关系。可以通过义原分类树来计算词语和词语之间的语义距离。   3.3知网的知识词典   知识词典是知网中最基本的数据库。   在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。   比如下面就是一条描述概念的记录:   其中,NO表示概念的编号,W_C表示汉语词语,G_C表示汉语词语的词性,E_C表示汉语词语例子,W_E表示英语词语,G_E则表示英语词语词性,E_E表示英语词语例子,DEF表

文档评论(0)

1亿VIP精品文档

相关文档