语言学和统计方法结合建立汉语动词SCF类型集.docVIP

语言学和统计方法结合建立汉语动词SCF类型集.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语言学和统计方法结合建立汉语动词SCF类型集

语言学和统计方法结合建立汉语动词SCF类型集   摘 要:动词子语类框架(Subcategorization Ftame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在于语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。   关键词:计算机应用;中文信息处理;动词子语类框架;类型集;语言学与统计方法结合   中图分类号:TP391 文献标识码:A      1 引 言      子语类框架(Subcategorization Frame)也翻译作“子类化”、“子范畴化”、“子范畴”,是根据动词可带句法成分对动词进行分类的一种方法。它描述的是动词与其搭配的成分之间的搭配模式及动词和其搭配成分之间的句法语义关系。例如:   “给”的子语类框架为:给NP NP(给你一本书)。   动词子语类框架的信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以大大提高句法分析的准确率,在语义消歧和语义角色标注中子语类框架信息也可提供重要的信息。   在获取具体动词的子语类框架信息之前,建立完整准确的动词子语类框架类型集是至关重要的。动词子语类框架类型集要面向广泛应用的各种自然语言处理系统,所以既要能够解释一般的语言学现象,又要尽可能反映语言的深层本质。      2 国内外研究现状      在国外,有关SCF自动获取的研究最早始于1991年Brent对英语的研究。目前相关研究在德语、捷克语、西班牙语、葡萄牙语等语言中都有所展开。Anna Korhonen提出了完整的获取英语子语类框架信息的方法。而大多数研究所使用的动词子语类框架词典是已经在英语方面达成普遍共识的Levin动词子语类框架词典。   在国内现代汉语研究中,目前尚没有学者就汉语动词SCF展开深入的传统语言学研究。但有三个方面的研究_配价理论、题元理论和格语法――与汉语动词SCF研究密不可分。这三个方面的研究都涉及对动词的搭配成分的研究,对汉语动词SCF的研究很有参考意义。尤其是配价语法,是近些年现代汉语研究的一个热点,也取得了很多很有意义的成果。计算语言学方面,哈尔滨工业大学的韩习武、赵铁军老师正在展开汉语动词SCF自动获取方面的研究,目前取得了一些很有意义的进展。而北京大学计算语言所开发的《现代汉语语法信息词典》收集了8万现代汉语常用词的丰富的语法信息。其中关于动词的相关句法信息,可以作为汉语动词SCF的原型。   到目前为止,面向自然语言处理的汉语SCF类型集,主要是在语料分析的基础上建立的。主要的提取方法都以从语料提取为依据,而没有重视语言学的理论依据。目前,SCF类型集的设置也没有达成普遍共识。      3 语言学理论与统计学方法相结合建立汉语动词子语类框架类型集      本文提出一种语言学理论与统计学方法相结合获取完整的SCF类型集的方法。首先利用语言学方法,建立SCF类型的种子集合,然后利用大规模标注语料对建成的种子集进行扩充。利用错误驱动的统计方法循环迭代扩充种子集,最终得到的动词子语类框架类型集,是在满足实际语料的基础上根据语言学的规则产生的。      4 利用语言学方法,建立SCF类型的种子集      4.1 利用纯概率方法获取SCF存在的问题   从语言学角度来看,SCF位于句法结构和句法语义结构的交合处,是其他句法语义信息的基础。另外,SCF包括动词的论元而不包括附属语。论元与附属语的区别主要在句法语义层面,例如几乎所有的动作都会涉及动作发生的时间和地点,因此表示动作发生时间和地点的句法成分出现的概率很高,但它们通常不是论元而是附属语。基于以上考虑,我们对于设置SCF类型集更加倾向于依靠语言学理论设置,而非机器自动从句法分析结果中获取。      4.2 论元和附属语(包括外围论元)的界定   论旨角色的概念最初由Gruber和Fillmore提出来的。述语有一些固有的角色,表示述语所涉及的主、客体或动作、行为状态、处所等,这些角色称为论旨角色。论元指带有论旨角色的名词短语。而附属语是和动词联系不是很紧密的短语,不属于动词的搭配成分。如:“3时40分,3辆中巴车静静地开出医用电子仪器厂的大门。”一句中,“3辆中巴车”是“开”的论元,而“3时40

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档