语料库技术及其应用介绍.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语料库技术及其应用介绍

2009 年第 5 期 外语研究 2009 , №5 总第 117 期 Foreign L anguages Research Serial №117 语料库技术及其应用 常宝宝  俞士汶 (北京大学计算语言学研究所/ 计算语言学教育部重点实验室 , 北京 10087 1) 摘  要 : 现代意义上的语料库最早出现于 20 世纪 60 年代 ,40 多年来 ,发展迅速 ,不但规模越来越大 ,而且加 工深度越来越深 ,语料库方法在语言研究和计算语言学研究领域发挥了重要作用 。本文首先概要介绍了语料 库的概念 、发展和应用 ,然后介绍了北京大学的现代汉语基本标注语料库和汉英双语平行语料库 ,最后介绍了 北京大学计算语言学所开发的基于语料库的双语词典编纂平台 ,重点介绍了其中的词汇分析技术 。 关键词 : 语料库 ; 汉语语料库 ; 汉英平行语料库 ; 词典编纂平台 中图分类号 : H087   文献标识码 : A   文章编号 : 1005 - 7242 (2009) 05 - 0043 - 09 1 . 引言 现代意义上的语料库诞生于20 世纪 60 年代 ,标志性的工作是美国布朗语料库的建成和使用 ,这个语 料库只有 100 万词的规模 ,虽然从今天的眼光看来 ,是一个很小的语料库 ,但却是世界上第一个机器可读 的语料库 。40 多年来 ,语料库及语料库方法在国内外均有长足的进步 ,不但语料库的规模越来越大 ,加工 深度越来越深 ,而且语料库技术的应用也越来越深入 。本文主要围绕语料库和语料库技术这个话题展 开 ,概要介绍语料库的基本概念 、发展和价值 , 同时介绍北京大学计算语言所在语料库构建和应用技术探 索方面所作的部分工作 。 2 . 语料库的概念 简单地说 ,所谓语料库就是一定规模的真实语言样本的集合 。一般而言 ,现代意义上的语料库具有 下面三个特性 : ( 1) 收入语料库的语言材料应当取自实际使用的真实文本 ,对于其应用 目标而言 ,所收录 的语言材料应该具有代表性 ; (2) 语料库应是机器可读的 ,是运用计算机技术获取 、编码 、存储和组织的 , 并支持基于计算机技术的分析和处理 ; (3) 收入语料库的语言材料经过适当的标注和加工处理 ,例如经过 词语切分或者词类标注处理 。 由于语料库在语言研究、词典编纂以及 自然语言处理等领域的重要作用 ,从 20 世纪 60 年代以来 ,语 料库及其相关技术发展十分迅速 。20 世纪 60 至 70 年代 ,世界上为数不多的语料库主要是面向语言研究 和辞书编纂的英语语料库 ,相关建设和研究工作也主要集中在英 、美 、挪威等少数国家的学术和出版机 构 ,时至今 日,大规模的其他语种语料库已经屡见不鲜 ,许多国家都有学术机构以及相关企业在从事基于 语料库的学术研究和技术开发 ,世界上在建的或已经完成的大规模语料库数量众多 。限于技术和条件 , ( ) 20 世纪 60 年代 ,百万词级的语料库已经是一个很大的语料库 如布朗语料库 ,而 目前规模过亿的语料库 ( ) 也已不在少数 如英国国家语料库 BN C 、COBU IL D 语料库 。从标注的级别看 , 除了进行词类等基本的 ( 标注外 , 目前已经出现了句法结构 、语义角色标注语料库 ,如国际英语语料库中的英式英语子语料库 ICE ) ( ) ( ) - GB 、美国宾州大学树库 Penn Treebank 和命题库 Penn Prop bank 。语料库的应用也呈现多样化 ,不

文档评论(0)

yanmei520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档