- 18
- 0
- 约3.61千字
- 约 7页
- 2019-08-23 发布于北京
- 举报
PAGE
PAGE 1
汉语词语相似度计算方法分析
【摘要】词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域,词语相似度计算等领域有着广泛的应用,本文对词语相似度计算方法进行了介绍,并侧重介绍了基于《知网》的词语相似度计算方法。最后对常用的两类计算方法进行了对比。
【关键词】词语相似度计算;知网
1.什么是词语相似度
汉语最基本的语义和语法单位就是词语,词语相似度计算用来研究用什么样的方法来计算或比较两个词语的相似性。本文认为,词语相似度就是词语在语义上的匹配程度,取值范围为[0,1]。词语相似度的值越大,说明两个词语的语义越相近;反之,则说明两个词语的语义差别越大。特殊的,当值为1时,表明两个词语的语义完全相同;当值为0时,表明两个词语的语义完全不同。
2.词语相似度计算方法
词语相似度计算方法大体上可以分为以下两类:
2.1基于语料库统计的方法
这种方法综合体现了词语在句法、语义还有语用等方面的异同。该方法属于基于统计的定量分析方法,其应用前提是:两个词语语义相似,当且仅当它们处于相似的上下文环境中。思想是统计大规模的语料,利用词汇上下文信息的概率分布进行词语之间的语义相似度的计算。该方法能够相对精确、有效的度量词语的语义相似度。
比如计算词语相似度也可以利用词语的相关性来进行。方法是事先选择一组特征词,接着计算这一组特征词与每一个词语的相关性,一般基于大规模语料选择这组词在某个词语的上下文中出现的频率作为度量词语相似度的相关数据,对于每一个词都可以得到一个特征词向量。两个词的相似度就可以通过这些向量之间的相似度来衡量。而向量之间的相似度,一般通过计算向量之间的夹角余弦值得出。
2.2基于某种世界知识(Ontology)的计算方法
该方法一般利用语义词典来进行词语相似度计算。基于语义词典的词语相似度计算方法,以语言学和人工智能两方面为基础。它基于语义词典,根据概念之间的上下位关系、同义关系进行计算。这种方法建立在这样的前提下:当且仅当两个词语在概念间的结构层次网络图中存在一条通路(上下位关系)时,这两个词语具有语义相关性。这种方法简单有效且易于理解。
这类方法的基础是大规模的语义计算知识资源。在英文方面,WordNet、FrameNet、MindNet等是具有代表性的例子;在汉语方面,《知网》(HowNet)、《同义词词林》、中文概念词典(CCD)等是几种主要的知识资源,很多学者尝试利用它们来计算词语相似度。目前常用的词语相似度计算方法,就是基于《知网》的相似度计算,下面将对它进行介绍。
3.基于《知网》的词语相似度计算
3.1《知网》的简介
《知网》(HowNet)是一个常识知识库,它含有丰富的词汇语义知识以及世界知识,内部结构复杂。《知网》的描述对象是词语代表的概念,它揭示了概念之间、以及概念所具备的属性之间的关系。它将词汇所代表的概念分为四大类,分别是实体、事件、属性、属性值。并通过义原(所谓义原,是不可再分的语义单位)来标注概念。《知网》由多个数据文件构成,是一个网状的有机知识系统,为人们进行自然语言处理的研究提供了宝贵的资源。
3.2《知网》的结构
《知网》中两个最基础的概念是“概念”和“义原”。“概念”是用来描述词语语义。因为一个词可以含有多个语义,所以一个词需要多个概念来描述。使用“知识表示语言”对概念进行描述,“知识表示语言”使用的“词汇”便是义原。《知网》中的不可再分的、最小的意义单位是“义原”。即用义原用来描述概念,用概念来描述词语。
《知网》作为一个知识系统,它主要反映了概念的共性和个性。通过对汉字详实的分析考察,《知网》采用的义原有1500个。知网反映了概念之间、概念属性之间各种各样的关系,总体来说知网描述了16种关系。
义原之间组成的不是一个树状结构,而是一个复杂的网状结构。然而义原关系中最重要的是上下位关系。所有的“基本义原”以这种上下位关系为基础构成了义原层次体系。该体系是树状结构,叫做义原分类树。义原分类树囊括了各个义原,以及义原和义原之间的联系。在义原分类树中,父节点义原和子节点义原之间具有上下位关系。可以通过义原分类树来计算词语和词语之间的语义距离。
3.3知网的知识词典
知识词典是知网中最基本的数据库。
在知识词典中,每一个概念(概念又称为义项)可以用一条记录来描述。一条记录含有八项信息,每一项由用“=”连接的两个部分组成,等号左边表示数据的域名,右边是数据的值。
比如下面就是一条描述概念的记录:
其中,NO表示概念的编号,W_C表示汉语词语,G_C表示汉语词语的词性,E_C表示汉语词语例子,W_E表示英语词语,G_E则表示英语词语词性,E_E表示英语词语例子,DEF表
您可能关注的文档
- 广西乡村旅游高技能人才培养探析.doc
- 广西新型城镇化发展.doc
- 广州城市建设与发展中的地质因素分析.doc
- 规范和完善政府采购的探讨.doc
- 规范会计基础工作,提升会计集中核算.doc
- 规划环境影响评价实施有效性分析.doc
- 贵州传统民族元素在旅游商品设计上的应用.doc
- 桂北地区梨树秋季翻花的原因及防止对策.doc
- 桂林兴安县红色旅游资源整合开发的思考.doc
- 郭祥正诗歌艺术个性探微.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 2025年中考语文总复习第二部分文学之约专题五文学类文本读写(一题一课).pptx VIP
- 病历书写规范培训ppt课件.pptx VIP
- Dell戴尔Alienware 双模无线游戏耳机 AW720H 用户指南.pdf VIP
- 中国重症肌无力诊断和治疗指南PPT课件.pptx VIP
- 六年级英语阅读理解专项训练20篇.doc VIP
- 学堂在线 雨课堂 学堂云 中国共产党与中华民族伟大复兴 期末考试答案.docx VIP
- 学堂在线 雨课堂 学堂云 中国共产党与中华民族伟大复兴 章节测试答案.docx VIP
- 学堂在线 雨课堂 学堂云 人工智能原理 章节测试答案.docx VIP
- 《病历书写基本规范》PPT课件.pptx VIP
- 学堂在线 雨课堂 学堂云 研究生学术与职业素养讲座 章节测试答案.docx VIP
原创力文档

文档评论(0)