汉语史研究中数字化研究手段简介.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语史研究中数字化研究手段简介

汉语史研究中数字化研究手段简介   一、最初的方法      汉语史研究中的数字化研究手段是语言学的计算机辅助研究,即CAR(Compute-Assisted Research)的一部分。①(P56)最初语言学引入的数字化手段集中在语料库,特别是现代语言语料库的建设方面,即将以往由纸制材料存储的语料改为由计算机存储,从而实现了由自然人的阅读向机器阅读的转变。机器阅读以其速度、精确度方面的优势为语言研究中的统计、采样、辞书编纂等提供了方便。数字化最先在汉语史研究中的应用也是从古籍语料库的建设和利用开始的,其后又引入了关系数据库等手段,为文献语料精细分析加工提供了可能。   我们认为,迄今汉语史研究的数字化主要包括语料的数字化(古籍电子语料库建设)、原有语言知识的数字化(汉语史专家知识库建设)和新语言知识生成的数字化三个层次。语料的数字化多借助于古籍文献语料全文检索系统而实现,原有语言知识的数字化和新语言知识生成的数字化则既借助全文检索系统,又借助关系数据库及其编程技术而实现。      (一)古籍文献语料全文检索系统   古籍文献语料全文检索系统,亦被称作古籍电子化,是指“利用现代计算机技术,对古籍文献进行科学系统的整理,主要应解决存储与检索问题”,它服务于相关人文社会科学的各个部门。据《国学宝典》的设计制作者尹小林先生的观点②,古籍全文检索系统的主要制作程序包括以下十个方面:1.选书;2.数据规划;3.录入;4.补字;5.审校;6.标引;7.软件编写;8.数据联调;9.软件测试;10.界面设计。   汉语史因其主要的工作就是从古代文献语料中发现语言规律,故而成为古籍文献语料全文检索系统的最为主要的用户之一。古籍文献语料全文检索系统的主要优点是“长于检索,能从各种格式、超大容量的文件中迅速、彻底地搜索目标字串,显示包含目标字串的句子,并能返回全文检阅原文,也可以马上输出,进行编辑”。③ (P61)如考察某词的发展,可利用台湾中央研究院研制的“汉籍全文检索系统”,输入一词,查遍全部《二十五史》四千余万字,只需一、二秒,并将检索结果依序穷尽排出,供浏览或打印。如将此项工作交由一个学者,只怕皓首穷经,也未必能保证精确不漏。④(P69)一般的古籍数字化工作面向的用户较为宽泛,对于特定用户所需要的特殊文献未必都能照顾到。从事汉语史研究工作的学者需要特定的语料和文献,这些古代文献包含大量异体字、古今字、通假字、冷僻字、讹俗字,在制作和显示方面有着特殊困难,故而其生产缺乏社会认同度,只能由从事语言研究的学者和单位自己承担。近年来,不少的单位和专家都意识到汉语言文字典籍数据数字化工作的重要,也有了一些初步的成果。      (二)关系数据库系统   全文检索系统只是利用数字化资料的最为基础的应用,它以字符串作为数据,采用的是非组织化的整体存储方式,数据之间的关系被人为隔开,该方式决定我们只能通过它进行直接的、穷尽性的字符串检索。然而语言研究中的要求是多种多样的,绝不满足于全文检索系统的检索字、词、句。   关系数据库技术是在全文检索技术之后又一个深受语言研究者青睐的技术手段,两者各有所长,互相补充。全文检索系统主要存储非线性的、非结构化的数据信息,数据库系统则主要存储、管理有组织的、结构化的数据信息,通俗地讲,就是类似于表格的数据信息。所谓关系数据库是指能处理二维表格,能够进行投影、连接和选择等关系操作的数据库。该数据库既便于人们观察数据的关系,又具备强大的系统管理功能,能开展一些全文检索系统不能胜任的工作。   数据库技术运用于汉语史研究是从汉语史专家知识库的建设开始的。从事汉语史研究的学者发现大量的语言学典籍,其文献结构本身就是结构化的。如《广韵》《集韵》等韵书,文献本身即构成语言知识,它们是古代语言学家语言研究成果的一个固化。1986年华中工学院陈汉清、邓希敏完成的《古今字音对照手册》计算机处理系统通过了技术鉴定。该系统将《古今字音对照手册》作为信息源全部存入计算机,建立了古今字音对照的原始资料库、数据资料库以及面向专家分析、研究、检索、验证系统,大大方便了音韵学研究。⑤[P89-91]此外,关系数据库技术还可应用于汉语史专书词汇、方言、以及诗文韵部的整理等研究中。这些技术的运用大都必须与数据库编程语言或其他编程语言结合起来,通过对数字化语料和原有语言知识进行排比、对照、分析来生成新的语言知识。      二、新的方法――XML标注语言      (一)语言研究需要标注技术   “计算机原本是数值计算的工具,后来虽然也可以处理文档,但这种处理仍然是二进制数值的计算。现在学者最常用的计算机功能就是全文检索,检索结果显示的是字、词、句子,但计算机不过是在对字符的编码进行匹配,对记录字符串的数值进行运算。计

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档