- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语语义资源用于短语歧义的模式消歧的研究
现代汉语语义资源用于短语歧义的模式消歧的研究
摘 要:现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。
关键词:计算机应用;中文信息处理;现代汉语语义知识库;搭配词典;短语歧义排歧
中图分类号:TP391 文献标识码:A
1 引 言
在现代汉语信息处理研究中,句法分析是重要的一个环节。由于汉语没有严格意义上的形态变化,不同词类之间的界限不太明确,这使得汉语句法分析变得极为困难。自然语言的歧义问题,实质上是意义与形式之间的矛盾问题。同一形式与不同的意义相联系,就必然会产生歧义。传统语法认为歧义包括词汇的多义歧义和结构的同形歧义。在自然语言处理中,同形歧义是一个不能回避而且也无法回避的问题。目前国内大部分学者都在从事这方面的研究。朱德熙教授在《汉语句法中的歧义现象》一文中提出了“歧义格式”这个概念。他认为,句子的歧义“是代表了这些句子的抽象的‘句式’所固有的”,因此,他主张用“歧义格式”来概括语言中的同形歧义结构。歧义格式所反映的类别的歧义,在具体的语言中有时存在,有时并不存在。当把具体的单词代入到歧义格式内的范畴符号(也就是类别符号)中,而使歧义格式实例化为具体的句子和词组?迹?有的句子或词组中仍然可以保持歧义格式原有的歧义,而有的句子或词组中,歧义格式原有的歧义却消失了。从歧义格式的内部组成成分特征、歧义对外造成的影响以及模式歧义和实例歧义的对应关系三个方面较全面地考察了现代汉语短语结构定界歧义的不同类型,从整体上将汉语短语结构定界歧义分为三类,即:①包含终结符的歧义格式与不包含终结符的歧义格式,②外显型歧义格式与内含型歧义格式,③真歧义格式、准歧义格式与伪歧义格式。本文将分析一些固定的范畴为伪歧义的歧义模式,并讨论如何利用有限的语义信息资源对句法分析器分析错误的包含这些短语歧义模式的句子进行消歧。
2 研究背景及资源
中文信息处理按照处理对象的层次由低到高可划分成词汇、句法、语义等三个层面并将高层面问题建立在低层面问题的结果集上逐层解决问题。目前汉语句法分析主要有两种方法:基于规则模型和基于概率模型。但无论使用哪种亦或结合两种进行句法分析,大多仅依靠句中词的词性标记展开进行,局限于词汇与句法信息层面。而对于汉语,句法分析中的歧义现象仅依靠从低层面中获取的信息是无法解决的。本文试图在句法分析中引入语义信息以排除大部分靠词汇信息无法处理的歧义来提高句法分析的正确率。语义排歧需要一个从语义层面描述词语关系的知识库。本文综合利用现代汉语语义知识库和搭配词典进行语义排歧。
清华大学陈群秀和其他单位联合研制的现代汉语语义知识库是本文研究的主要语义资源。尹一瓴在理论层面上简单分析了使用现代汉语语义知识库进行句法分析的基本方法。他的研究只是针对具体的分析方法,并没有一个统一的处理框架。尹一瓴的方法只能处理简单短语结构,并且其理论还没有应用到真实的大规模数据集中。本文在其研究基础上,进一步研究在句法分析中引入语义信息,其主要为动词、形容词、名词之间的配价模式,以提高句法分析准确率的方法。本文通过分析不同的歧义模式,提炼出四类基于语义分析结构搭配操作,这样就可以将关于各类不同的歧义现象的分析过程分解为这些操作的组合,从而总结出一种基于语义分析结构歧义现象的统一的处理框架。在研究短语结构歧义模式消解过程中,本文使用了清华大学周强老师研制的汉语匹配分析器作为研究基础,利用语义知识库和搭配词典,在其中间结果的基础上对最终生成的句法树加以改进。搭配词典又分为动词名词搭配词典(动宾搭配词典),名词动词搭配词典(主谓搭配词典)和形容词名词搭配词典(定中搭配词典)。本文排歧对象为周强树库中25 248个句子资源。在句法分析中引入语义信息的目的是解决仅靠词汇的词性信息无法处理的句法歧义现象,因此本文以汉语匹配分析器无法正确处理排歧的句子为研究目标,通过分析总结出普遍存在的难以解决的歧义模式并针对这些歧义模式设计解决方法。本文研究工作假定汉语句子的分词和词性标注正确,在这个前提下集中分析短语句法结构。
3 歧义模式分析
3.1 歧义模式提取
为使排歧具有针对性,分析汉语匹配分析器无法正确排歧的句子,总结出七种歧义模式:
1.VNUN模式(verb+firstNoun+u+seeond
您可能关注的文档
最近下载
- 2025上海闵行区古美路街道招聘社区综合协管员18人考试参考试题及答案解析.docx VIP
- 2025年文职人员招聘考试公共科目知识点试题.docx VIP
- (完整word版)九宫格数独及答案(18道).docx VIP
- 广东省深圳市罗湖区2024-2025学年九年级上学期11月期中考试数学试题(含答案).pdf VIP
- 6.2 学会依法办事教学课件(共27张PPT)-初中道德与法治统编版(2024)八年级上册.pptx VIP
- 医疗陪诊创业计划书模板.pptx VIP
- 贵州大学论文模版封面.doc VIP
- 第一单元(教学课件)-【大单元教学】五年级语文上册同步备课系列(统编版).pptx VIP
- 单元工程施工质量检验表与验收表(样表:1土石方工程)(SLT 336—2025)水土保持工程质量验收与评价规范.docx VIP
- 技能认证焦炉调温工知识考试(习题卷18).pdf VIP
原创力文档


文档评论(0)