说文解字语料库XML标注设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说文解字语料库XML标注设计

说文解字语料库XML标注设计   【内容摘要】《说文解字》含有关于先秦文献语言和文字的多方面的资料。深入的研究它,是研究汉民族语言文字学史的重要内容。现有电子版《说文》大多只是《说文》原文文本的电子化,应用价值有限。要想更好地应用计算机研究《说文》,就必须对其文本进行详细标注,而标注规范的合理性和可用性,决定了标注的价值。本文选择XML作为标记语言,在详细分析《说文》内容结构的基础上,设计了符合其特点的XML标注规范(Schema);并在对《说文》全文进行XML标注基础上开发了更加符合用户需求的全文检索工具。   【关 键 词】#8201;#8201;《说文解字》;语料库标注;XML;标注规范。   【作者简介】胡佳佳,文学博士,北京航空航天大学虚拟现实技术与系统国家重点实验室博士后,研究方向:计算语言学、中文信息处理、古籍数字化等方面的研究。      一、问题的提出      “《说文解字》(以下简称《说文》)这部我国语言史上的不朽名著……创立了汉民族风格的语言学。汉民族语言学的一个主要学科是‘文献语言学’,它研究的对象是周秦的书面语言,研究的内容是文字、声音、训诂,所以又称为‘文字声音训诂之学’。《说文》就是文献语言学的奠基之作……它的说解是研究汉语和汉字发展史的重要资料……对说文本身的研究形成了一个专门的学科”――《说文》学(又称“许学”)。   “语料库,顾名思义就是存放语言材料的仓库(或数据库)。传统上,语言学家用语料库这个术语表示可作为语言研究基础的、大量自然出现的语言数据……近40年以来,语料库这个术语通常指以电子形式保存的语言材料,并被广泛用于语言研究和语言工程”。   从语料库方法的角度来看,将《说文》原文输入计算机后直接形成的没有经过任何处理的电子文本只能称作“生语料库”。只有当研究者能够从语料库中获取信息或者知识时,才能说这个语料库有用的。为了从语料库中抽取有用的信息,必须首先在一个或多个层面上对语料库进行分析,并将分析结果植入语料库中,才能给一个语料库带来附加的价值,这就是语料库标注。例如,研究者希望利用一个儿童文学语料库来建立一部儿童词典,就需要首先对这个语料库进行分词,并为每个词标注词性(甚至词义),才能进行词频与词性分布的统计。   语料库标注可以定义为:“一种给口语和(或)书面语语料库增添解释的和语言的信息的实践。”也可以把这个实践的最终结果称为语料库标注。一个完整的标注必须包含两个基本组成部分:语料库中的一段文本(其长度可以是单字/词、词组、句子、句组、段落、篇章……)与附加于这段文本上的标记。一般把前者称为“标注内容”,而把后者直接称为“标注”。   语料库的标注一般是昂贵和耗时的。但一旦把标注加到语料库上,所产生的新语料库便是一种比原语料库更有价值的资源,并且还可以提供给其他用户使用。不同的用户可能带着不同的目的来利用这些带标注的语料,有些甚至是原标注者未曾想到过的,从而为语料库带来各种不同的应用价值。“而语料库标注者的‘专家’水平,以及他们所采用的标注规范的合理性和可用性,决定了语料库标注的信息是否有用,是否有知识”,或者说有多大价值。   把“标注”称为是“解释的”信息是因为标注至少在某种程度上是人们对文本做出理解的产品。“标注”与“表示”不同,它提供的是对于文本内容的阐释分析,而不是文本本身的内容。因此一个文本的标注是元语言的。所谓“元语言”,就是描述语言的语言,它通过定义一套描述文档结构与含义的语法标记,使人或计算机能够利用这些标记快速准确地找到并理解文档中包含的特定语义信息。   从本质上说,《说文》在对小篆形音义进行说解时已经具有了一定的“元语言”思想,它通过固定的表述格式和程式化用语,起到对相应的语言现象给予归类的作用。如其中的部首某一律用“凡某之属皆从某”表示;前四书的形体说解都采用“象某形”“从某从某”、从某某声“等程式化用语;重文中的古文、籀文、或体……也都有确定的表述语言。把这些格式和用语的内涵总结成文,就是后来的凡例,总结的行为称作“发凡言例”。传统语言文字学中把归纳凡例的工作称作“条例之学”,凡能成例者,都在不同程度上体现语言文字规律。研究条例,就是要从中发觉理论原理。王筠的《说文释例》就是把《说文》各条例项拆解后再集中起来逐一剖析,属于清代《说文》通论研究的集大成者。其他学者辑其“六书”者有之,辑其声类者有之,辑其“读若”者有之,辑其引经者有之,辑其引通人说者有之,辑其旁见说解者有之……可以说,凡散见于《说文》各部各条下的例项,都有人作过辑抄。   但《说文》的“元语言”是不彻底的,因为它采用了与所描述语言相同的语言来进行标注,在形式上与所标注内容混同,从而无法直接提取所需信息。如下面《说文》两条说解中的“从也”(本文所引《说文》

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档