- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
PAGE
.
古籍数字化研究的回顾与思考
毛建军(南京大学中文系 江苏 南京 210093)
文 摘 文章认为,古籍数字化的研究首先从技术上获得突破,理论研究则相对滞后。古籍数字化研究的回顾有利于古籍数字化工作的进一步开展,也有利于古籍数字化理论研究的深入。
关键词 古籍数字化 古籍整理 回顾思考
Review and Ponders on the Ancient Book Digitization Research
Mao Jian-jun (Chinese Dept. Nanjing University, Jiangsu Nanjing, 210093,
[Abstract] Along with development of the massive ancient books digitization resources, the ancient book digitization research first obtains the breakthrough from the technology, but the fundamental research relatively lags. The review ancient book digitization research is advantageous to the further development of ancient book digitization work and more thorough fundamental research.
[Key words] The ancient book digitization; he ancient book trims; review and ponders
古籍数字化属于古籍整理的范畴,代表着古籍整理的未来方向。数字资源具有占据空间小、存贮量大、检索方便、传输迅速、易于复制,可以长期保存等诸多优势。因此,古籍数字化从其产生就受到有关部门和部分学者的关注。1988年曹书杰在《古籍整理研究学刊》第1期发表了《古籍整理与电子计算机应用研究的思考》,第一次以论文的形式探讨了计算机运用到古籍整理的可能性和有效性。在台湾,计算机运用于古籍整理也开始了真正的实践应用,学术界也首次提出了古籍电脑化这一概念。[1] 20世纪90年代以来,随着大量古籍数字化资源的开发,丰富的实践上带动了人们对古籍数字化研究和思考。
1 汉字字符集研究
汉字输入是古籍数字化首先要面临的问题。由于古籍中包含有大量生僻字、异体字、通假字以及手写字和避讳字,而已公布的汉字通用字符集如GB2313字符集(7478个字符)、BIG-5字符集(13868个字符)、GBK字符集(21885个字符)、ISO/IEC 10646 / Unicode字符集(70195个字符)均不能完全处理古籍中汉字的复杂性,因此,解决汉字字符缺失问题就成为古籍数字化的首要任务。[2]早期古籍数字化汉字输入主要集中在新旧字形和异体字问题。这方面广西大学林仲湘等在开发《古今图书集成》时取得了一定经验,同时在《广西大学学报》(哲社版)1996年第2期发表了《论古籍整理用计算机字库中的字形处理》、《如何解决古籍整理用计算机字库中的异体字问题》等一批论文。
由于GBK的编码体系不能通用于国际标准,如果采用它作为古籍数字化的字符集,会导致由于字符集的壁垒而使数字化古籍产品无法走向世界。因此,经过探索和实践,目前国内学术界在字符集的采用上已有主流看法:坚定不移地采用国际标准ISO/IEC10646。[2]《四库全书》电子版工程的开发结合了GBK的编码体系与ISO/IEC 10646 / Unicode各自的优势,解决了大型古籍数字化汉字字符集的难题。[3]另外,一些致力于古籍数字化汉字处理的数字化企业也积极参与到汉字输入的研发当中,开发出了许多有效解决汉字输入的软件。北京中易郑码新技术有限公司的《中易汉神e-超大型中文网络国际应用平台》被列为“国家973信息技术与高性能软件规划项目”,支持ISO/IEC10646:2003(同Uncode4.0)国际标准编码的7万个汉字的输入、编辑排版和打印输出。[4]北京龙戴特信息技术有限公司开发的四字节汉字处理系统——龙语瀚堂典籍数据库系统彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化,这标志着汉学研究进入四字节典籍研究的数字时代。[5]
2 系统功能研究
支持系统主要运用于书目数据库和具有智能分析和检索功能的数字化古籍中,主要有古籍机读目录的链接技术、全文数据库技术、全文检索以及超文本标注等智能化支持系统。
传统的古籍目录检索是通过分类卡片和书目检索手工方式进行的。随着计算机数
文档评论(0)