大规模动态流通语料库构建.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模动态流通语料库的构建 郭慧志1王强军2刘华1张普1 (北京语言大学应用语言学研究所.北京100083) 2(河北大学人文学院河北保定071002) E·mail:georgeguo@,,blcu.edu.cn 摘要:本文介绍了北京语言大学应用语言学研究所在大规模动态流通语料库构建上的一些 经验、相关的研究动向和开发流程。目前DCC语料库已经初具规模,在流行语研究、术语提 取和字母词研究上都有很大进展,如何进一步提高利用率,为中文信息处理、对外汉语教学 以及词典的辅助编撰提供资源和动力,将是我们今后努力的方向。 关键词:中文信息处理;语料库;应用语言学;流行语 引言 “语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有 领域,它正在对语言研究的许多领域产生愈来愈大的影响。”【loj。语料库已经成为语言及信 息处理研究不可或缺的资源,语料库语言学以事实证明了语料库在语言研究中的地位和作 用。 动态语言知识更新理论由张普教授于1998年提出[71,该理论采用控制论的调控机制、 社会语言学的监测方法和计算语言学的处理手段,对语言现象进行动态的观测、描述、分析、 归纳,从而推动整个信息传播、知识更新体系的循环发展。由北京语言大学DCC博士研究 Circulation 室开发的动态流通语料库(Dynamic Corpus,DCC)是动态语言知识更新理论框 架的一个具体实现,该语料库收集了通用领域和专业领域超过15亿字符的语料,包含着语 言学研究和语言信息处理研究非常丰富的资源。本文就DCC的语料库建设问题进行介绍和 探讨,如果能对关注语料库研究的相关人士有一点点帮助,则是本文之幸事。 1 DCC语料库的构成模式 语料库的结构一般分为“索引文件+语料文件”模式和“数据库+语料文件”模式。 “索引文件+语料文件”模式是对文本文件创建索引,利用索引对文本内的字符串(或 词语)进行统计计数.然后对统计结果进行分析和处理。常用的全文索引方法有倒排表法和 射串数组(PAT Array)法。文献…j报告了两者的比较,结果表明射串数组总体性能较优, 更适合检索长字符串。北京语言大学宋柔教授主持开发的“面向语言教学研究的汉语语料库 检索工具(CCRL)”就采用了射串数组的方法,可以直接应用于任何未加工的生语料,规 模不限(例如可以是几亿字),可以完成通常的各种检索,如KWIC检索(字符串上下文检 索),也可提供整个语料库的字频、词频统计结果。 利用后缀数组可以实现网上的实时检索,可以用较小的空间对极大规模的语料进行计 算,可以随时更新索引数据,这些都是传统的方法和手段很难做到的。但是这一方法也有缺 点,即对大量的计算结果缺乏有效的管理。如果有嘎多的研究目的,这种方法对计算结果的 保存、显示和管理都比较乏力——事实上需要借助其他的管理工具。 ‘‘j受据库+语料文件”模式指的是利用第三方数据库软件对原始语料进行保存和处理, 计算结果保存为数据表的形式,新增的语料单独计算,通过对已有表和新增表的数据融合完 成更新。DCC语料库采用了这--q[-作模式。动态语言知识更新理论体系的一个特色是对语 22I 言现象的历时观察。这一点迫切需要随着语料库的增长而能随时更新数据。另外对计算速度、 计算数据的管理也有非常高的要求。而这些都是大型关系型数据库能够胜任的。还有一个显 著的特点是大型关系型数据库对XML的有效支持,使得网络语料库服务成为一大优势。 “文件+数据库”模式不用编写复杂的应用程序,只需建立已设计好的数据表和字段, 将一系列的文本导入数据库,利用数据库自身的计算功能完成统计计算。从常识上来讲,这 比自己编写应用程序算法和设计数据结构的效果要好得多(因为第三方数据库是成熟的软件 系统,会采用各种优化的算法解决诸如查找、排序或其他计算问题)。但是这种方法有不足 之处,数据库模式是一种典型的“以空间换时间”的处理方式,可能造成资源浪费、重复建 设等问题,所以,开始就要设计好相关的实验框架,另外,随着硬盘容量的不断扩大,空间 换时间的代价也越来越小。 2 DCC语料库资源建设 动态流

您可能关注的文档

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档