- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中古汉语语料库的设计与实现
:文章探索了中古汉语研究型语料库的设计原则和 具体构建方法。首先,明确了中古汉语语料库设计的总原则, 并针对语料库构建过程中的每一个环节设立了分原则;其 次,把语料库构建过程分为语料选取、语料加工、语料库管 理及检索系统研发三大块,勾勒出了每一模块构建的具体流 程和方法,并对构建环节中遇到的具体问题及对策做出了阐 述。文章是对中古汉语研究型语料库构建过程和方法的总 结,可以辅助人们更加深入地了解该语料库的总体概况和使 用方法,对语料库理论的发展也可起到一定的补充作用。
关键词:语料库建设中古汉语语料标注语料检索
自20世纪80年代始,中古汉语研究取得了长足进展。 然而遗憾的是,古汉语语料库的建设远远地落后于研宄的进 展。综观国内外研究现状,要么对中古的语料收录不多,要 么没有进行精细加工。中古时期是汉语的质变期,中古汉语 的研宄对于理清汉语语音、词汇、语法等的发展脉络有着不 可或缺的作用。现今语料库中收录的中古语料十分不足,而 未做分词标注等深层加工又在很大程度上减弱了语料库的 整体使用价值。为使中古汉语研宄不断走向纵深,并有更加 整体定性的研究方法和多层面的分析角度,建设深加工的研 究型中古汉语语料库十分必要。
中古时期的语言面貌与现代很不相同,两者在语料库 的构建上也必然存在差别。一方面,无论在语言学理论,还 是语料库理论上,针对现代汉语的研究均更为成熟。特别是 在分词标准、语法标注类别等方面,现代汉语成果颇多,不 仅有权威的分词规范出版,句法分析、格语法、框架语法等 多种语法研究也产生了大量研究成果。中古汉语及其语料库 构建理论的相关研究则还很薄弱,尚有待进一步探索。另一 方面,中古汉语语料库在构建技术上还比较落后,自动分词、 自动标注的相关研究相对滞后,这不仅加大了人工操作的工 作量,也不利于提高分词、标注的一致性,为语料库的构建 质量埋下了隐患。除此之外,由于中古汉语只存留在文献中, 并不会出现在日常交际中,这使得语料库在构建目的、加工 方法、加工层级上与现代汉语语料库也有所不同。中古汉语 语料库的构建目的较为单一,主要服务于汉语史研究和古汉 语学习,这就要求在构建时更加注重传统句法、古代特殊语 法、特殊语用现象的标注,以及疑难字的解析、与现代汉语 的对译等。
中古汉语研宄型语料库主要收录从东汉到隋的传世文 献37本,除此之外还有汇集的诗歌杂帖及出土的中古文献。 收录原始语料的库容约1000万字,加工后的库容将大大扩 展,包括书籍库、句子库、词汇库、疑难字库、义项库、编 码库六大不同层级的子库。语料库采用开源的MySQL数据 库[1]对语料信息进行存取,本文拟就语料库构建的相关问 题,进行较深入说明。
二、语料库构建原则及方法 语料库构建目标及原则
中古汉语研究型语料库是基于中古汉语书面语的共时 专语语料库,在建立语料库之初首先要明确的是语料库构建 的目标和原则。
中古汉语语料库建设的主要目标有:1)提供经过校 勘的中古文献己校注的电子版;2)为中古各种词汇、语法、 搭配等语言现象提供可进行统计的平台;3)为中古文献提 供可靠的释义,为机器翻译、语言学习领域提供基础材料; 4)为中古汉语语言研宄提供大量好的语言实例。
中古汉语语料库设计遵循的总原则是:1)语料库的 设计和建设在系统的理论语言学原则指导下进行;2)语料 库语料的构成有明确的语言学理论指导,按照一定比例收集 语料,而不是中古文献的简单堆砌;3)中古汉语研究型语 料库作为中古时期语言运用的样本,须采用科学的方法确定 各种语料的比例,使语料具有代表性;4)语料加工时采用 自动和人工相结合的方式;5)语料库中语料以电子文本形 式储存并且可以方便快捷地通过计算机对语料进行各种处
理。
语料库模块划分
在明确构建目的和原则的基础上,初步确立了语料库 构建所涉及的几个模块,具体如图1所示:
图1中“语料选取及整理”“语料加工”是针对具体语料 进行的工作,是把选定、加工后的语料整合起来,以一定方 式存储在数据库中。“语料库管理及使用”是提供管理和使用 该数据库的平台,针对构建好的语料库设计管理、检索系统, 以便为研宄者提供共享服务。这三大模块在语料库构建中都 至关重要,其中“语料选取及整理”是基础,“语料加工”是核 心,这两者属语料库本体层,决定了语料库构建的质量。“语 料库管理及使用”属语料库应用层,决定了语料库的功能和用 户体验。这里先介绍本体层的两个环节。
语料选取及分类
语料是构成语料库的基础,语料的选取是影响语料库 质量的重要因素。中古语料库所收录的绝大多数为东汉至隋 朝时期的文吩I,在选取语料时要遵循代表性、平衡性、关联 性与区别度、特色性四大原则,以保证对中古时期语言事实 的覆盖率。入库的语料如表1所示:
由于影响语言全貌
文档评论(0)