现代汉语介词短语边界识别研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语介词短语边界识别研究 王:芷霞 (北京语言大学r北京,100083) 摘要: 汉语中介词结构右边界歧义是汉语结构歧义中最突出的现象之一,这给汉语的句法 分析带来了很大的困难。本文研究的目标是:在不引进复杂的句法分析的备件下实现介词短 语边界的自动识别,期望其作为句法分析预处理的一部分为句法分析提供一定的帮助. 本文对汉语中最常用的介词“在”进行了实验,封闭测试和开放测试的准确率分别达到 97%和93%.与前人的同类研究相比,准确率有了较大的提高,解决了过去遗留的一些问题。 关键词:右边界;概率信息;删除插值法 引言 汉语中介词结构右边界歧义是汉语结构歧义中最突出的现象之一,这给汉语的句法分析 带来了很大的困难。本文研究的目标是:在不引进复杂的句法分析的条件下实现介词短语边 界的自动识别,期望其作为句法分析预处理的一部分为句法分析提供一定的帮助。 1相关术语及国内外研究现状 《现代汉语》(北京大学中文系现代汉语教研室编,商务印书馆出版,1993)中管“把、 被、从、在、让、对、对于、关于、跟”之类的虚词叫做“介词”。类似于“从今天,把衣 服”这样的格式叫做介词结构,也叫做介词短语。 所谓介词短语的边界就是标志介词短语开始的位置和介词宾语结束的位置.如“对这次 考试”,“对”是介词短语开始的左边界,“考试”是介词短语结束的右边界。介词短语边界 的识别,就是指出介词短语的左、右边界。介词短语的左边界就是介词本身,因此,所谓介 词短语的边界识别,实质上就是找到介词短语的右边界。 “介词短语”的研究,无论是在国内还是在国外,都是一个研究的难点。英语中,介词 短语研究属于介词结构消歧的范围,主要研究介词结构附加问题(PPAttachment).即研究 介词短语修饰名词还是动词的问题:汉语中则主要是解决边界问题,即汉语介词所带宾语右 边界的确定问题。 国内语法学界对介词及介词短语的研究开展的较早,取得了很大的成绩,但是对它进行 自动标注的研究,却是很少见。就笔者所及,还没有正式公开发表的、专门的、系统的对介 词短语自动标注进行研究的文章。 2本文研究策略 我们假设,介词短语的右边界只跟边界前后一个词相关。那么,对于每一个标注好词性 个词形,ti+l表示词wi+l的词性),我们就可以计算这样一个条件概率: 。 (rb表示介词短语的右边界) P(rb{wi/ti.wi+1/ti+I.p) rb的概率有多大。 178 值 F(rb,wi/ti,wi+l/ti+l。P) P(rb J wi/ti,wi+i/ti+l,p)= F(wi/ti,wi+l/ti+l,P) F(wi/ti,wi+l/ti+1,P)表示介词P与wi/ti,wi+/ti+l共现的次数。 在真实文本中统计单词或者词串的频率、概率时,总是不可避免的会碰到数据稀疏问题。 很多词串仅仅出现了1次,有更多的词根本就没有出现过。即使对很大规模的语料进行统计, 的应用语料中又会遇到所谓的零概率问题。这就意味着即使是在一个相当大规模的数据集 中,最大似然估计法还是不能精确的估算出每一个词串的概率。对这种情况,我们采用删除 插值法(Deleted 单、有效。 有以一F9个,其中条件概率P2到P9是概率P1:P(rb1 果。 PI:P(rb wi,wi+1,P)P3:P(rb1 1 wi/ti,wi+1/ti+1,P)P2:P(rb1 ti,ti+1,P) P4:P(rbf f wi,ti+l,P)P5:P(rb l l P7:P(rb1 wi+1,P)P8:P(rbti,p)P9:P(rbti+1,p) P(rbi (^l到^9是常数,^l+^2+.…..+^9=1) J

文档评论(0)

gubeiren_001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档