汉语语义角色标注研究概述.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语语义角色标注研究概述

中文语义角色标注研究概述 南京师范大学文学院 陈菜芳1 摘 要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取 等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。本文介绍 了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工 作进行了展望。 关键词:浅层语义分析 语义角色标注资源 语义角色标注 0 引言 语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅 层语义分析的一种方法。语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻 译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着 重要意义。下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文 语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角 色标注未来的工作进行展望。 1 中文语义角色标注语料资源 语义角色标注离不开语料资源的支持。英语较为知名的语义角色标注资源有FrameNet、 PropBank 和NomBank 等。中文语义角色标注语料资源主要是从英语语义角色标注语料资源 的基础上发展起来或参照其建设的。 Chinese Proposition Bank(CPB)同英文PropBank 基本类似。在 CPB 中,总共定义了 20 多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6 个, 均以Arg0~Arg5 和ArgM 为标记,其中核心的语义角色为Arg0~5 六种,其余为附加语义角 色,用前缀 ArgM 表示,后面跟一些附加标记来表示这些参数的语义类别。它几乎对 Penn Chinese Treebank 中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究 都是基于此资源。 中文Nombank 是在英文命题库(Proposition Bank)和Nombank 的标注框架上进行扩展, 对中文名词性谓词的标注。中文Nombank 加入了语义角色层的标注信息,与CPB 一样,也标 注了核心语义角色和附加语义角色这两类语义角色。中文 NomBank 中的角色位置有两类情 况:一是角色在以名词性谓词为核心词的名词短语中;二是当以名词性谓词为核心词的名词 1陈菜芳,女,南京师范大学2010 级硕士研究生,研究方向计算语言学 短语作支持动词的宾语时,允许语义角色在名词短语外。 山西大学构建的Chinese FrameNet 是基于框架语义理论,类似FrameNet 风格的中文 词典。它描述了框架元素的详细句法信息和词汇单元以及参与者框架元素之间的关系。 Chinese FrameNet 的架构和英文 FrameNet 相似,并且有许多只是稍作修改直接对英文 FrameNet 进行翻译,但也有一些创新,增加了相应语义角色的汉语名称。目前 Chinese FrameNet 已经有130 多个汉语框架,还在不断补充。 台湾中研院陈凤仪建立的中文句结构树资料库(Sinica Treebank)。Sinica Treebank 是一个包含语义标记和句法标记的混合语料库。它的基本框架是以讯息为本的格位语法,主 要是对小句进行标注。目前己标注了61 087 个句子,包含了361 834 个词语。语义角色标 记共有50 多个,基本沿袭了格语法的标记体系,如:受益格、感受格等。 北京大学袁毓林教授组织建设的中文网库,是在北大汉语句法分析树库的基础上进行语 义标注的。有着更为细致的语义角色设置,尤其是核心论元,分别在主体论元和客体论元内 部各划分出五个子类。具体如下:(一)必有论元:A 主体论元:施事、感事、经事、致事、 主事;B 客体论元:受事、与事、对象、系事。 (二)非必有论元:A 凭借论元:工具、材料、 方式、原因、目的;B 环境论元:时间、处所、源点、终点、路径、范围、量幅。 董振东主持建立的知网(HowNet)是一个常识知识库,描述对象为汉语和英语的词语所 代表的概念,揭示了概念与概念之间以及概念所具有的属性之间的关系。《知网》描述了多 种类型的词汇语义关系,涉及了词汇语义的各个方面,着重描述了不同词性的词语所代表的 概念之间的语义关系,其中特别重视名词所代表的概念与动词所代表的概念之间的语义关 系,也即我们通常称作实体与事件之间的语义关系即语义角色关系,例如作为实体的“医生” 和作为事件的

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档