基于XML清人小学注疏五种词源研究 语料库研制和应用.docVIP

基于XML清人小学注疏五种词源研究 语料库研制和应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML清人小学注疏五种词源研究 语料库研制和应用

基于XML清人小学注疏五种词源研究 语料库研制和应用   摘要:采用XML技术开展古籍专书的标注和研究,是计算机辅助语言研究的一个新领域。利用该标注技术建成的清人小学注疏五种词源研究语料库,对清代五部小学注疏词源研究成果的诸多方面有着准确的反映,为研究者查询利用相关词源研究成果提供了极大便利。该语料库的建设能为应用XML技术处理古籍文本,提取相关语言学知识提供借鉴。   关键词:XML词源学建模技术数字化一、引言   《广雅疏证》《说文解字注》《尔雅义疏》《方言笺疏》《释名疏证补》这五部清代小学注疏作品,不仅保存了历代探索字词源流丰富的诂训资料,而且能以“因声求义”之法疏解词义、补证理据、说解词源,堪称传统词源研究的一座宝库。现代先进的信息技术,为我们利用这些古籍开展现代词源学研究提供了有力支撑。   我们利用XML标注技术[1]建成了清人小学注疏五种词源研究语料库,该语料库对清代五部小学注疏词源研究成果的诸多方面有着准确的反映。通过检索该语料库,研究者可以及时而清楚地了解:1.各家对某组语词是否同源的判断;2.各家论证某组语词同源关系所征引的文献证据和语音证据;3.各家研究古今字、通假字、异体字的情况。下文将对该语料库的建设作详细介绍。   二、电子文本的生产   清人小学注疏五种的电子文本由吾师尉迟治平教授及门下弟子共同完成,笔者为主要参与者之一。   五种文本均系手工录入,所用底本之版本信息如下:   《广雅疏证》(中华书局,王氏家刻本影印,1983年版)   《说文解字注》(上海古籍出版社,经韵楼本影印,1981年版)   《尔雅义疏》(上海古籍出版社,郝氏家刻本影印,1983年版)   《方言笺疏》(上海古籍出版社,仁和王文韶红蝠山房校刊本影印,1983年版)   《释名疏证补》(上海古籍出版社,光绪丙申刊本影印,1984年版)   我们在制作以上电子文本的过程中,以“存真”为基本原则,尽量保持典籍原貌。   所有文本文件均采用支持超大字符集的“UTF-8编码”。“UTF-8编码”是国际标准超大字符集统一码“Unicode”的一种变长字符编码,又称“万国码”。用在网页上,可以在同一页面显示简体中文、繁体中文及其他语言,其显示范围远大于“ANSI”。[2]在字体选择上,我们选择了“宋体-方正超大字符集”和“PMingLiU-ExtB”字体,以保证绝大多数古籍汉字的正确录入与显示。即便如此,清人小学注疏五种中依然有少数古文字、俗字、别字、冷僻字等无法正常录入和显示。针对此问题,我们对古籍文本在坚持“存真”的基本原则下,用既有的汉字字形来组字造字,其组字规则及示例如下:   表1:   所用符号 字形结构说明 示例   * 左右结构 明: 日*月   / 上下结构 皇: 白/王   @ 包含结构 虎: 虍@几   ?? 增减部件 虔:虎-几+文      所有文本均系繁体字纯文本,能够进行字符串的全文检索,并能够供诸位学人根据自己需要作进一步加工或标注。   三、清人小学注疏五种的数据建模   (一)构建树形结构图   清人小学注疏五种横跨雅学、说文学两大领域,性质不同,体例不一,具体文档结构更是纷繁复杂。现要集合五种注疏,综合利用,惟有求同存异,小而统之,粗分大类。   大致而言,五种注疏皆包含了序言、正文、附录三个部分。正文部分包含了大量我们需要分析的语言学属性。初步分析,五种注疏的正文部分都是篇目名和逐条小学注疏循环构成的一个整体。   由小学原文和清人注疏构成的单条小学注疏的内部情况虽复杂多样,但各个研究者都可以根据自己的研究目的,对其内容作出自己的分析。因我们的研究主要关乎词源研究,所以我们将单条小学注疏下面细分出一条条分析声义同源的字词关系断语,字词关系断语下面又可以析分出数个声义同源的同源字。   基于词源学的研究初衷,我们画出了清人小学注疏五种文档的树形结构图,如图1:                                    图1:文档结构树形图   (二)使用XSD Schema进行数据建模   1.设计标记名   鉴于我们需要提取分析的语言属性、语言知识都存储在清人小学注疏五种文档中的正文部分,为了文档结构层次的简洁、经济,我们拟直接以清人小学注疏五种正文作为我们的根元素,序言、附录等暂时被剥离,这不会影响我们工作的开展。另外,由于目前大量主流软件尚不支持汉字标记,我们便采用汉语拼音作为标记。对根元素及各节点子元素的标记分别定义如下:   清人小学注疏五种正文:qingrenxiaoxuezhushu   篇目名: pianmuming   疏证语段:zhushuquanwen   字词关系断语:ziciguanxiduanyu   同源字:tongyuanzi   2.编写扩展名为“x

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档