- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于wordne的英语词典语意解读
一、种典型的语汇知识模型
随着语言资源的快速增长,对语言学的研究和应用变得越来越激烈。这些语言资源包括:辞典、词汇数据库、语料库等等。而其中相当引人注目的就是分类辞典,例如:GUM,CYC,ONTOS,MICROKOSMOS,EDR和WordNet(Gomez,1998),这些分类字典中,各自有不同的特征,有些是专为某个特殊范畴设计,有些则是不限文体;它们的排列也有不同,可能是根据字汇关系(LexicalRelation),也可能根据概念关系(ConceptualRelation)来排列。而连结关系的选定,建置方法,也有所不同。在这些分类词典中,WordNet(Miller,1990;Fellbaum,1998)拥有最宽广的应用空间,已然形成一种标准(Farreres,RigauandRodriguez,1998)。由于WordNet是一个以心理语言学为本的语汇知识模型,所以对许多认知科学的研究来说,它是一个很重要的工具。另外,Hirst(1988)也曾指出,要发展人工智能,必须深入研究知识储存及知识表征的机制,而要有效处理自然语言问题,一个涵盖层面广的语汇语意分类数据库和推理机制是不可或缺的。因此,当WordNet推出之后,便应用在许多的研究当中,像是文件检索(Gonzaloetal.,1998;Mandala,TakenobuandHozumi,1998),机器翻译(KnightandLuk,1994),文件生成(Jing,1998),影像检索(Aslandogametal.,1997)等等。WordNet的成功,引发许多非英语系的国家,建置不同语言版本WordNet的构想,并且有不少单位已开始实际进行。像是包含西班牙、意大利、法国、德国、荷兰、捷克、爱沙尼亚等语言的多语欧洲版本WordNet(EuroWordNet),已经完成(Atseriasetal.,1997;Farreres,Rigau,andRodriguez,1998)。另外,韩语版本WordNet的建构计画也正在进行中(LeeandYun,2000)。
综观目前有关中文处理的研究,不难发现,缺乏语意及知识表达,是导致技术无法突破的主因。像WordNet这一类的系统,对语义分析占有重要地位的中文处理来说,有关键性的影响。然而中文的分类词典,长久以来一直缺乏一部可为典范的版本。目前在学术研究中最常被引用的同义词词林(梅家驹等1984),并不能算是真正的分类词典,而是一部修辞辞典。对于含语意架构的中文词典的迫切需求,引发了本文的研究动机。我们计画以英文版的WordNet作为基本骨架,透过歧义辨识的技巧,借着将各个同义词集(Synsets)连结到朗文当代英汉双语词典(LecDOCE,Proctor,1988)的基本词目。利用英文同义词集与中文翻译之间的连结,能将WordNet现成的丰富语意资源,自动带到中文词汇网络。
本文第二节介绍相关研究,第三节对连结资料进行一些观察,第四节提出连结方法。实验设计及结果在第五节,最后是结论以及未来研究方向。
二、机读汉字的名词定义
自然语言处理研究,需要有丰富的词汇知识与语意关系作为基础。这些重要的研究资源除了透过统计技巧,由语料库中获得以外(Galeetal.,1992;Yarowsky,1992,1995;Resnik,1993;DaganandItai,1994;Luk,1995;NgandLee,1996;RiloffandJones,1999),还可粹取自机读字典(Guthrieetal.,1991;Slator,1991;Lietal.,1995;ChenandChang,1998)。机读字典的词目定义中,通常包含属类词(Genus)与区分语(Differentia)两个部分。其中,属类词这项资源能协助很多自然语言处理研究。属类词可用来架构语意网(Amsler,1981;Chodorowetal.,1985;AhlswedeandEvens,1988),对歧义辨识以及统计式机器翻译(KerandChang,1997;Chang,KerandChen,1998)有很大的帮助。另外,Vandderwende也曾利用粹取自朗文字典的语意关系来辨识名词组(Vandderwende,1994)。
机读字典的词目定义与属类词之间是一种IS-A的关系。另外,在WordNet中同义词集之间的上位关系(Hypernym)所表现的也属于一种IS-A的关系。本研究透过属类词与上位词的重复用语,试图连结WordNet的同义词集与朗文英汉字典的词目定义。并且,透过这种自动连结将WordNet的同义词集加上适当的中文翻译
原创力文档


文档评论(0)