北京大学CCL语料库的研制.pdfVIP

下载本文档

300
0
约2.51万字
约 17页
2021-09-09 发布于浙江
举报
版权申诉

北京大学CCL语料库的研制.pdf

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语料库语言学 2019年第6卷第1期北京大学CCL语料库的研制 * 北京大学詹卫东郭锐常宝宝谌贻荣陈龙提要：北京大学中国语言学研究中心CCL 语料库是面向语言学本体研究和语言教学的大规模语料库，目前包括现代汉语、古代汉语和汉英句对齐平行语料，规模超过7 亿汉字。 CCL 语料库检索系统以包括汉字、字母、标点等在内的字符为基本索引单位，提供普通查询、批量查询、模式查询等多种检索方式。同时该系统支持限定范围查询、基于复杂检索表达式的查询、统计模式频次、对查询结果进行排序、下载查询结果等功能。本文介绍 CCL 语料库的建设情况与主要功能，具体涉及语料分布概况、语料库查询功能和使用方式、语料库索引与检索技术架构等。关键词：北大CCL 语料库、汉英双语对齐语料、语料检索、语料索引 1. 引言在语言本体研究及语言应用领域（如语言教学、教材编写、词典编纂等方面），语料库都发挥着非常重要的作用。另外，在自然语言处理领域，数据驱动的方式亦是当前主流。国际上的BNC 语料库、COCA 语料库、美国宾州大学LDC 收集的多语种语言资源；国内的国家语委语料库、北京语言大学的BCC 语料库（荀恩东等 2016 ），以及本文要介绍的北京大学CCL 语料库等，均被广泛应用于语言学研究、教学领域以及自然语言处理中。可以说，经过半个多世纪的发展，语料库已经成为现代语言学相关领域必不可少的基础资源和研究工具1。北京大学CCL 语料库是由北京大学中国语言学研究中心（简称CCL ）开发的大规模中文语料库。CCL 成立于2000 年1月。同年9 月被教育部批准为全国普通高等学校人文社会科学重点研究基地。成立之初，设定的目标即为“努力把基地建设成为国际一流的汉语语言学研究中心、国际一流的汉语语言学研究信息资料库、国际一流的汉语语言学研究学术交流中心”。其中第二项目标的主要工作内容就是构建大规模语料库，免费向全球用户开放，服务汉语研究和教学2 。根据这 * 本文写作得到2015 年度教育部人文社科重点研究基地重大项目（15JJD740002 ）的支持，特此致谢。CCL 语料库的建设工作得到了北京大学中国语言学研究中心历任领导陆俭明教授、蒋绍愚教授、王洪君教授、陈保亚教授和北京大学计算语言学研究所俞士汶教授的关心和支持。在北京大学CCL 语料库构建工作过程中，先后有多位老师和同学给予大力支持，包括北京大学计算语言所段慧明、柏晓静、靳志辉等，北京大学中文系杨灵叶、沈薇、张洁、曾石铭等，中国科学院信息工程研究所王斌、李鹏等。此外，海内外广大用户也对CCL 语料库提出过很多宝贵的改进意见和建议。在此一并表示诚挚的谢意。 71 北京大学CCL 语料库的研制个定位和具体的任务要求，CCL 研究人员联合北京大学计算语言学研究所，研发了CCL 语料库，于2004 年底在CCL 网站上发布了首个版本。此后分别在2006 年、 2009 年、2014 年历经多次语料扩容和检索系统功能升级，系统运行至今已有近十五年，而且仍在根据研究工作需要和用户反馈持续更新。CCL 语料库在海内外汉语研究和教学领域得到了广泛应用，产生了较大的影响。本文将详细介绍CCL 语料库的研制情况和使用方法。 2. CCL语料库的设计理念与语料分布语料库语言学发展过程中，对于原始语料是否应加以标注，一直有两种对立的主张。一种观点认为语料库应该保持原样，不做标注。因为标注意味着预设的理论注入，可能带来谬误。真正的语言学知识，应该来自原始语料本身，不带任何预设的偏见。另一种观点认为语料标注有助于更好地研究语言，标注信息丰富的语料库可以在包括语言本体、语言认知等领域提供更好的工具支持。支持前一种观点的有一些著名的语料库语言学家，比如Sinclair （2004 ）、Teubert （2005 ）等。支持后一种观点的语言学者大概更多，可参见Leech （1993，1997，2005 ）、Gries （2012 ）等。这两种主张的背后，其实是对语料库在语言研究中所起作用的定位差异，即所谓语料库驱动的语言学（corpus-driven linguistics ）与基于语料库的语言学（corpus-based linguistics ）之分。前者把语料本身作为语言学理论的数据来源，追求在纯粹的原始语言数据基础上，构建