- 1、本文档共43页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
同形词语法功效消歧
摘要
自动句法分析是当前计算语言学研究的一个热点,同时也是一个难点。由于汉语本身的
一些特点,使得汉语自动句法分析的研究更加艰难。我们在做基于功能匹配语法的现代汉语
自动句法分析研究时发现,现代汉语同形词存在许多语法功能歧义,给我们的自动句法分析
树带来了大量的分支,造成了很人的困难,而这些分支是可以通过单独的处理或者预处理来
加以消减的,因此有必要基于句法功能对同形词单独做一下探讨。本研究在_L程实践的初始
阶段采取一些切实可行的措施对同形词进行处理,减少了句法分析树的分支数量,提高了分
析器的速度和质量。
本文先对清华973树库中的同形词进行统计分析,从统计结果可以看出,同形词在现代
汉语中占有较大的比例,具有很人的作用,因此处理好同形词,对于现代汉语本体研究和自
动句法分析研究都有十分重要的意义。
由于我们的基于功能匹配语法的现代汉语自动句法分析器只利用从清华973树库中统
计出来的词和短语的句法功能,舍弃了词性和词义等信息,冈而我们对同形词进行处理时为
了和功能匹配的句法分析方法保持一致,就不能像其他人多数研究那样利用词性、词义信息,
而是只利用句法功能信息,这样就把我们的消歧策略限定在的一定的范围内。排除词性、词
义信息后,可以看到上下文信息也是可以刚朱消除同形词语法功能歧义的有效信息。在借鉴
以往词性、词义消歧研究禾114,规模实验的基础上,本文决定基r同形词的上下文信息米进行
同形词语法功能消歧。本文的消歧策略分为两部分:一是基丁.同形词的语法搭配来进行消歧,
即根据同形词的某个特定上卜.文搭配信息进行语法功能消歧;二是基于同形词的上卜.文语境
信息米进行消歧,也就是通过计算同形词上‘卜.文语境的相似度进行语法功能消歧。这些策略
都着眼于人规模语料的统计,语言学角度的分析和描写较少,方法的一致性比较高,大火提
高了结果的可信度。
本文Hj汉语中目前研究比较充分的“打”和“花”两个词为例进行消歧实验,把清华
973树库作为封闭测试的语料,用1998年1月人民日报语料作为开放测试的语料,基丁搭
配的“打”和“花”语法功能消歧实验封闭测试的结果分别为80.4%年1191.5%,开放测试的
结果分别为69.16%和70.00%;基于语境计算的消歧实验的封闭测试的结果分别为93.68%
和92.56%,开放测试的结果分别为72.06%币11
62.50%,2.2者的实验效果都比较理想。由于基
于搭配的消歧方法在抽取某些语法功能搭配时需要人]:的干预,用丁大规模真实语料时还存
在一定的|查|难,冈此进行句法分析时我们可以采片j基丁.语境计算的同形词语法功能消歧策略
来进行同形词的前期处理。
关键词:同形词:句法分析;语法功能:语境计算;消歧
Abstract
of
,nIe theautomaticsentencestructureisa focusthat
analysis is
computationallinguistics
studiedat isa difficultatthesame it issome
present,which point time,because Chinese
characteristiesthatmaketheresearchinautomaticsentencestructureofChinesemoredi硒cult.
While automaticsentencestructureofmodem
Chinesebasedonthe of
making grammarfunction
matchesfoundthatmodernChinesewith word
t,we
文档评论(0)