树库的标注及应用精选.pdf

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
树库的标注及应用精选

树库的标注及应用 Anne Abeillé, ed., 2003, Treebanks: Building and Using Parsed Corpora, Kluwer Academic Publishers. (Text, Speech and Language Technology Volume 20) 詹卫东 导读 1 学科背景及本书的定位 树库(Treebank )属于深加工语料库,是语料库语言学和自然语言处理(NLP )技术发 展到相对成熟阶段的产物。宽泛而言,语言研究一直以来都离不开“语料”。但从“语料” 到现代意义的“语料库”,是从二十世纪五六十年代伴随着电子计算机的应用才开始的,其 发展轨迹及趋势有几个明显特点:(1)语料库规模不断扩大,类型不断多样化。(2 )标注信 息不断丰富。(3 )应用范围不断拓宽。这些特点是跟过去半个世纪整个信息社会大环境的飞 速变化和NLP 技术的进步分不开的。计算机存储能力和互联网的加速发展,使得电子化的 大规模的自然语言资源越来越容易获得。从上世纪六十年代起步时的百万词级规模到八九十 年代的上亿词级规模,再到今天语料库的规模已不再成为人们关心语料库的重点,不难感受 到这种惊人的扩容速度。与此同时,语料也从原始形态的生语料库发展到经过多级标注 (annotation )的所谓熟语料库。标注的信息从一般的词语形态信息,词类信息等很快发展 到了标注句法结构、句法功能、语义角色信息等等。标注词类信息的语料库跟原始语料一样 仍然保持着一维串性结构,而标注了句法结构、句法功能信息的语料库则因描述了词语(以 及词组)之间的层级组合关系,成为二维的树状结构(Tree Structure ),因此这样的语料库 就被称为树库。像树库这样的带标语料库的发展还明显得力于NLP 技术本身发展的推动。 这一方面是NLP 技术的发展需要有树库这样的深加工语料库提供数据支持。另一方面则是 由于NLP 技术的进步反过来大大提高了树库加工的效率,减低了人工成本,使得树库加工 成为切实可行的一项工作。从上世纪九十年代开始,NLP 的主流技术从基于规则的方法开 始纷纷转向基于统计的方法,在这样的背景下,来自真实语料的语言统计数据逐渐取代以往 由人工归纳的语言学专家知识,成为NLP 应用系统所依赖的主要知识源。在词类标注、句 法分析、机器翻译等许多NLP 技术的相关评测中,基于统计方法的系统都取得了更胜一筹 的成绩,从而吸引了更多的研究人员来推进这种数据驱动型NLP 技术的研究。尽管构建树 库是相对成本比较高的语言工程,但受到英语树库的成功鼓舞,从上世纪九十年代中后期开 始,其他语种也陆续启动了树库加工项目。随着机器学习技术在NLP 领域应用热潮的不断 升温,树库的研究和应用也受到越来越多的重视,不但涉及的语种已经扩展到几十个,而且 句法标注所依据的理论体系也由生成语法的短语结构语法发展到中心语驱动短语结构语法 (HPSG ),依存语法(Dependency Grammar )、词汇功能语法(LFG )等等多种理论框架并 存的局面(有的树库甚至是把短语结构跟依存关系的标注融合到一块进行标注)。本书出版 于2003 年,距离上世纪90 年代初英语树库问世已有10 年。尽管如编者在导言中所说的, 树库作为语言资源的一种新形式,本书的多数篇幅是在讨论如何加工树库,有关如何使用树 库的篇幅相对较少,但仍然可以说全书内容基本反映了这 10 年间树库研究的整体面貌,是 树库研究发展到一定阶段的一个比较全面的总结,起到了承前启后的作用。 2 内容提要 本书正文共21 章,正文之前有一篇导言(Introduction )。导言是本书编者对全书内容的 概括介绍。21 章中有的是专为本书撰写的,有的则是由发表在一些相关会议上的论文改写 的。21 章内容分为两大部分:第一部分从第1 章到第15 章,讲如何构建树库;第二部分从 16 章到第21 章,讲如何使用树库。 第1 章到第4 章介绍了英语树库的构建。内容分别是美国宾州树库的整体情况介绍,对 近20 年英语树库构建工作的思考,英语语料库(Bank of English )的词汇形态标注、句法标 注以及后续的句法功能标注,ICE-GB (国际英语语料库-英国部分)树库的句法结构校对方 法。第5 章和第6 章

文档评论(0)

tazhiq2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档