网站大量收购独家精品文档,联系QQ:2885784924

把…HVP的计算分析.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
把…HVP的计算分析.pdf

世界汉语教学2002年第1期(总第59期) “把…HVP”的计算分析 陈小荷 对输入语料做了自动分词但未标注词性的条件下,试图标出每个介词“把”后边的HVP。分 析方法是基于语言知识的,以我们对核心动词短语的分类为指导思想,以包含较丰富的语法 信息的专用动词词表为支撑,同时也利用了从训练语料中获取的统计数据。实验结果是。开 放测试的平均正确率达到93%。 关键词 “把”字结构核心动词短语计算分析 0 引言 “把”字结构一直是现代汉语语法研究的一个热点,但从汉语信息处理的角度对“把”字 结构进行专门研究的文献尚不多见。我们尝试用计算机分析“把”字结构,初始目标十分单 Verb 纯,就是要标出每个介词“把”后边的核心动语短语(Head Phrase,HVP),例如: ……而且把顾客的满意程度也[作为卜一种重要标准。 “那些把安眠药[卖给]中小学生吃的事呢?” 其中黑体字部分是“把”字结构,方括号内是HVP。 这不是对“把”字结构的全面分析,但的确是最重要的一步。标出HVP之后,可以向左 搜索各种状语,逼近“把”的宾语的左边界,向右搜索宾语和其他成分,得到整个“把”字结构 的右边界。 通常认为,“把”字句有四个特点:(一)谓语一般不能是光杆动词;(二)“把”的宾语一 般是有定的;(三)谓语动词一般有“处置性”;(四)助动词、否定词一般不能放在“把”的宾 语跟谓语动词之间。④除第二个外,其他三个特点都跟HVP有直接关系。如果能用计算机 自动标注出HVP,我们就能对其特点进行定量分析,看所谓“一般”到底是多大的概率,并进 一步研究“一般”之外有哪些隐蔽的规律。 词语“配价”是汉语语法的一个新热点,就动词而言,不再局限于研究单个动词的配价。 多的人认为事实上把字句的构造确实很难从动词类别去把握。这是因为以往的研究过分纠 缠于语义的分类而忽略了必用的连带成分的组配特点。”从自动分析角度看,句法分析是配 价分析的基础,计算机自动标注出来的HVP恰好就是配价研究者感兴趣的动结式、动趋式、 动介式等结构的丰富多样的实例。 对于稍懂语法的人来说,HVP标注不成问题,但对于计算机来说并非易事,因为它缺乏 陈小荷:“把…HVP”的计算分析 人类所具有的关于语言和客观世界的各种知识以及推理能力。严格地说,HVP的正确标注 取决于对整个句子的完全的句法分析。②但目前用计算机对汉语句子(尤其是真实文本中的 句子)做完全的句法分析尚无可行性。退而求其次,可以进行骨架分析(skeleton parsing), 得出句子的主要成分,或浅层分析(shallow parsing),例如提取句子中的名词短语。陈小荷 (】997)用统计方法标注过真实文本中句子的核心谓词,其开放测试的正确率为90%左右, 但所使用的是已标注词性且经人工校对的输入语料,语料代价高,标注算法对特定词性标记 集有很强的依赖性。穗志方、俞士汶(1998)用骨架依存分析法识别汉语单句核心谓词,其 正确率为87.3%,但输入语料不是真实文本,而且依赖于人工对齐的英语例句。 本文所报告的“把…HVP”的分析有两个特点:第一,输入语料是只做了自动分词但未 做词性标注的真实文本,这种语料代价低廉,容易得到。第二,主要利用语言学知识,特别是 有关“把”字结构的知识来进行分析,分析结果便于从语言学角度给予解释,统计方法在这 里只起了辅助作用。 1 所用资源 句子。句子的平均长度是个36个词,句子越长,自动分析就越困难。语料中“把”字结构2 万余个,平均每句1.06个。众所周知,《人民日报》语料的题材、体裁丰富多样。从比例上 看,主要反映当代书面汉语的面貌。 1.1词性问题 句法分析之前要不要先做词性标注?我们权衡了一下利弊。对于“把…HVP”的分析 来说,关键是HVP中的动词。如果语料已经标注词性,解决了

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档