WordNet的应用问题的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WordNet的应用问题的研究

WordNet的应用问题的研究   【摘 要】本文介绍WordNet的来源与发展,阐述以半自动方法设计WordNet,讨论了意义排歧过程的复杂性,最后展望WordNet的发展趋势与应用。   【关键词】语义;本体;同义词;排歧   0.引言   随着信息技术的发展,对电子计算机依赖的群体越来越大,更多的人都希望自己编写的自然语言能够与计算机直接对话,而实际上要使计算机能够接受这些自然语言或者伪代码,必须让计算机本身具备语法、语义、词法、句法等语境,而词汇语义的构建就是基于WordNet的,WordNet一直是知识工程研究的重点,下面对它分别做一些分析和讨论。   1.WordNet的来源与发展   WordNet[1]原本是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是把单词以字母排列顺序为原则,而是基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的义类原则即词以义聚,按照单词的意义组成一个“单词的网络”。 它是一个覆盖范围宽广的英语词汇语义网,以一种“网“的形式来描述词语的意义,可以是利用语义成分表示语义[2],也可以是利用关系表示语义,比如:“碗”(bowl)和“餐具”(tableware)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:碗是一种餐具(a bowl is a kind of tableware),即“Is-A-KIND-OF”这样的语义关系 , 名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,即在词的形式和意义之间建立起映射关系(mapping)用于描述词汇矩阵,并且这些集合之间也由各种关系连接。一个多义词就有可能出现在它的每个意思的同义词集合中,对于这样一个复杂的词库该如何创建呢,是手工编制还是机器自动生成,选择手工构建词典的优点之一是便于创建更为丰富的词条信息;其次是便于控制,下面我们将阐述以非手动的方式来设计WordNet。   2.半自动方法设计WordNet   人工编制显然工程浩大,必然时间长,要花费大量的人力、物力、财力,而对于机器完全自动生成,就是让机器本身独立判断一个个的概念,准确的定位各种关系,这样产生的结果往往是准确性不高,在目前多方面受限制的前提下可以试着以本体半自动的设计方法。   在设计方法前先讲述“本体”和“关系”概念。   本体:本体目前还没有规范化的统一定义,它是一种概念模型的明确规范说明,而这个概念模型又是共享的,它主要表达了四个方面的含义:概念模型、明确、形式化、共享。概念模型指通过抽象出客观世界中一些现象的相关概念而得到的模型;明确是指所使用的概念及使用这些概念的约束都有明确的定义;形式化指必须是计算机可读的;共享指概念模型所体现的是共同认可的知识,反映的是相关领域中公认的概念集。   关系:Hypernyms关系表达的是目标词汇作为实体的隶属关系,表示目标词汇与上类词汇是一种a kind of 关系。   Holongms关系表达的是目标词汇作为一部分所隶属的上位关系,表示目标词汇与上系词汇是一种 a part of 关系。   Meronyms关系表达的是目标词汇作为一个实体的一个部分,表示下位词与目标词汇的是一种a part of 关系。   Coordinate terms关系表达的是哪些与目标词汇有相同上类词的词汇,表示的是同族关系;   Troponyms关系表达的是目标词汇的近义词,表示的是近义关系。   Antonyms关系表达的是与目标词汇相反的关系。表示的是反义关系。   2.1抽取核心子本体、扩展、编辑以达到完善本体的方法   以领域数据字典为依据,从wordnet中抽取一个子本体,从wordnet抽取world本体核心概念为示例,这个过程其实就是一个概念发现的过程,必须有本体雏形作为抽取子本体的基础,也就是通常所说的middle-out方法;在抽取出的子本体基础上,对其进行扩展与分析,wordnet是一部同义词典,其有jwordnet和JWNL API作为词典的访问函数,wordnet只具有上下位等关系,没有objectproperty这种关系,概念可以抽取出来,关系的获取还有一定的困难,通过抽取出的种子概念的相关概念为候选概念,利用种子概念与候选概念出现的概率,运用语料库推算两种子紧密度,以此确认候选概念是否扩展到本体中,wordnet获取本体其实已经获取了本体的关系,而无分类关系的可利用的方法是关联规则挖掘法;最后用可视化工具protégé处理,这也是目前应用最广泛的本体编辑工具[3]。   2.2其它方法简述   上述的方法是基于语义字典的生成本

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档