语料库研究与应用综述.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库研究与应用综述 语料库研究与应用综述 目录 一概述 二中国语料库建设的基本情况 三语料库的加工、管理和规范 语料库在语言研究中的的应用 语料库在语言研究中的的应用 五参考文献 语料庄研究与应川综述 一概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由口然出现的帖ini语或 口语的样本汇集而成,川来代表特定的语言或语言变体。经过科学选材和标注、具有适当规 模的语料库能够反映和记录语言的实际使用情况。人们通过语料廉观察和把握语言事实,分 析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不口J缺少 的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究「I的和川途,这一点往往能够体现 在语料釆集的原则和方式上。有人曾经把语料库分成四种类型:(1)异O (Heterogeneous): 没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous): 只收集同一类内容的语料;(3)敘 的(Systemic):根据预先确定的原则和比例收集语料, 使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized): 只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的 (Monolingual )^双语的(Bilingual)和多语的(Multilingual )o按照语料的采集单位,语料 库又可以分为语篇的、语句的、短语的。双语利多语语料库按照语料的组织形式,还可以分 为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词 典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: 设计和规划:主耍考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展 性等。 (2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以 及各类语料的比例以保持平衡性等。 (3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等) 标记集、标注规范和加工方式。 (4) 语料管理系统的逑设:包括数据维护(语料录入、校对、存储、修改、删除及语料 描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、 丿IJ户功能(查询、检索、统计、打印等)。 (5) 语料库的应用:针对语言学理论和应川领域中的各种问题,研究和开发处理语料的 算法和软件工具。 (6) 我国语料库的建设始于80年代,当吋的主要目标是汉语词汇统计研究。进入90年代以 后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研 究的内容涉及语料库建设屮的各个问题。90年代末到新世纪初这儿年是语料库开发和应川 的进一步发展吋期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典 编纂、现代汉语和汉语史研究等方面也得到了越來越多的应用。 语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在口 然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。 对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利 用它对大规模的自然语言进行调杏和统计,建立统计语言模型,研究和应用基于统计的 (Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽収等应用方 向取得了进展。另一方而,语言信息处理技术的发展也为语料库的建设提供了支持。从字符 编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理 的研究都为语料的加工提供了关键性的技术。 下面先简要叔述1998年到2003年中国语料库建设的基本情况,然后介绍语料库的加工、 管理和规范问题,最后谈谈语料库方法在语言研究和语言工程等方曲的应用。由于以前的《中 国语言学年鉴》很少谈及语料库问题,为了尽可能全而地反映我国语料库研究和应用的情况, 必要时会将时间上限向前延伸几年。 Bad Bi 二中国语料库建设的基本情况 90年代末到新世纪初这儿年投入建设或开始使川的语料库有数十个之多,不同的应川目 的使这些语料库的类型各不相同,对语料的加工方法也各不相同。下血是其中已开始使用并 且具有一定代表性的语料库。 (一)现代汉语通用语料库 这是一个由国家语言文字工作委员会主持建立、面向全社会应用需求的大型通用语料 库,从90年代初开始建设,计划规模7000万字,主要应用目标是语言文字信息处理、语言 文字规范和标准的制定、语言文字的学术研究、语文教育、以及语言文字的社会应用。 这个语料库收录的语料以书面语为主、以书面语转述的口语为辅

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档