框架网络与语义, 句法联系表征.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
框架网络与语义、句法联系的表征 Charles J. Fillmore, Josef Ruppenhofer, Collin F. Baker International Computer Science Institute 1 摘要 框架网络(FrameNet)是一个基于语料库的、以框架为基础的计算机词典编纂项目,这个项目得到美国国家科学基金的资助。现在已是第六个年头,这个项目提供了表达有关英语词项(lexical item)在语义和句法的要求方面的信息,并以各种基于网络的报告的形式呈现出这些信息。受“词网”(WordNet)的启发,该项目取名“框架网络”,它反映了与词网相似的事实,即该项目运用框架语义学的理论并关注使词汇意义在其中彼此连接的语义网络。 这篇论文有两个功能。首先是向语言学界、自然语言处理学界解释框架网络的目的、程序和预期的最终产品。其次是展示框架网络的资料如何作为研究工具服务于某个特定的派生任务,这个派生任务包括从主项目得来的资料中抽取新的资源,这种新的资源被称作“核心依从图(kernel dependency graphs ,简写作:KDGs)”。KDGs由多个词项的结构化的串构成,每个这样的串都包含一个“控制项”(governor)2以及它的所有“依从项”(dependents)的词汇核心,每个依从项的词汇核心在其相对于控制项的语义角色方面都做了标注。KDGs可以被描述为修改了的依从树(dependency tree),其中节点是词项,联系控制项与依从项的语义角色则在分支上用标签予以显示。前置词和其它指示语义角色的功能词也给予了表征。换用“槽-填充项”(slot-filler)的术语讲就是,一个KDG的核心唤起一个以分支标签命名的“槽”的结构,而这些“槽”的“填充项”就是依从项的词汇核心。 KDGs可从现有的框架网络的注释中自动生成,3这些注释能够产生搭配信息以及框架网络注释者所挑选注释的句子在语义-句法联系方面的信息。4我们期待发展出将类似于框架网络的注释分配到新的文本中的系统(见Gildea and Jurafsky 2002,Manning 等将刊的文章)。来自大语料库的KDGs能够提供一个有关该语料库在频率和搭配方面的可靠信息的数据库,在特定文件中得到确认的KDGs能够作为一种标志以显示该文件特定段落的主题事件及其基本主张。 2 我们希望从词汇资源中获得什么? 所需要的能够服务于自然语言处理的词汇资源应该至少包括以下一些类型: (1)每一个词元(lexical unit,简写作:LU)5的意义的表征, (2)词元间联系的不同类型, (3)一个词与其它语言单元组合构成短语和句子的能力的信息, (4)与某个词相关的语义信息,这个信息可以用来解释包含这个词的短语的意义。 这四种类型的信息与大多数非言语性质的自然语言处理的应用直接相关,下文将会详细论述。这四种信息在框架网络描述中均占有一席之地。当然,一个完整的词典还包括发音、词汇的地域变体、语源、语域以及态度评价等诸如此类的信息。建立在语料库实证基础上的词典还应该携带有关作者/说话者、地点、场合等此类信息的原始数据,但是,这里不打算讨论这些内容。 2.1定义 定义,或者其它意义表征,当然是为人们所熟知的纸质词典的标准特点,这也是机读词典定义或意义表征的来源。一般而言,词典定义的语言不能成系统地直接提供服务于自然语言处理的有用信息,这主要是因为词典设计指南在事先设计时就没有考虑这些功能。然而,比较幸运的是,定义模式的规则使获取词汇的其它类型的信息成为可能,如:具有相同定义的词可以被认定为是同义词,在所定义的一定短语的基础上可以建构名词分类及相关的词汇网络。例如:任何被定义为“一种鱼”的东西都可以被认为是标上了鱼类范畴子类的标签;后跟“等等”(etc.)的词汇列表一般可以被看作是指示了某一层次上的同等概念;包含相互参照的定义则暗示了其它的词与词的联系。 框架网络中的定义或者从简明牛津词典(the Concise Oxford Dictionary,简称COD)中拷贝,或者当没有合适的COD意义可供使用时,由框架网络的词典编纂者设计。尽管目前框架网络定义的主要功能是充当以人为使用者的有关某个词元的特定意义的快速向导,但是我们已经在努力设计更多的结构化的定义模式,以容纳框架网络注释本身所不能发掘的有关自然语言处理的信息,如形态学上的派生词、领域名称(动物学、心理分析等)、语义合成,等等。 2.2 词元间不同类型联系的例证 尽管词典定义也详细说明了词元间不同类型联系的例子,但是这样的信息更为系统地组织在同类词词典(thesauruses)当中,如在线词网(WordNet),6它包含了“同一”(同义关系)关系、“对立”关系(种种反义关系)、“属种”关系及其逆对(下义

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档