- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
目前唯一可在微软平台上支持超大字符集
可进行自然语言全文检索的
实现编辑功能的典籍类数据库
龙 语 瀚 堂 典 籍 数 据 库
社科文献出版社
北京时代瀚堂科技有限公司
北京龙戴特信息技术有限公司
联合制作
一、龙语瀚堂典籍数据库开发缘起
㈠、古籍整理与研究的现状
随着现代计算机技术的发展和人们对传统文化的重视,在中国传统文化领域里利用信息技术对古籍
数据库建设的工作得到高度重视和快速发展。众所周知,传统的二字节编码技术只能处理2万多汉字,而
汉字在古籍中种类总量超过五万,这还没有包括甲骨文、金文、简帛等出土文献研究中使用的无法隶定的
汉字。因此,现有的计算机技术在使部分古籍实现了数字化、网络化的同时却依然对大量的生僻字、古字
束手无策。就像我们在探究汉字起源时所经常用到的《说文解字》、《康熙字典》等字书类、小学类古籍就
是因为含有大量的生僻字,至今仍无法很好的实现通用的数字化版本,更有大量甲骨文、金文等历史文献,
仍然处在手工化研究的阶段。研究人员在遇到电脑上无法检索或编辑的生僻字的时候,往往利用造字、利
用符号表示、利用手工制作卡片、利用语言对字的组成的描述等手段来表述,从而给学术之间的交流和传
播带来了极大的不便。
㈡、目前古籍数据库的应用现状
数据库供应商和机构自建是目前古籍类数据库资源建设的两个主要渠道。常见的古籍数据库有《国学宝典》、《中国基本古籍库》、《四库全书》等。这些古籍数据库均是以资源量取胜。《国学宝典》收录3800余套历代典籍,《中国基本古籍库》更是以万余套古籍的收纳成为目前国内最大的古籍数据库。
我们在肯定这些数据库对古籍数字化的贡献和典范作用的同时,不可否认的是这些它们在技术上的瓶
颈——对于生僻字的处理没有达到完全数字化,使其在内容方面有着不可避免的缺陷——对生僻汉字出现频率较高的字书类、小学类、金文类等古籍的处理均被长期搁置。
汉字经过数千年的发展和演化,目前流传下来的总数量大约7万左右,大量的汉字由于使用人群和领
域的狭窄,被归结为“死字”。但是这些生僻汉字大量的存在于中国的古代典籍中,与常用汉字一起构成“汉字”这一中华文明的载体,它们对于历史和文明的考证有着不可或缺的作用,其本身也是文化遗产的重要组成部分。
在一般的古籍中约有1‰的汉字属这类“死字”,而在诸如《说文解字》等小学类古籍中,它们出现的
频率甚至高达3%以上!因此,舍弃了生僻字而建构的这些中文知识库都不是真正完整的!
二、龙语瀚堂典籍数据库开发意义
㈠、龙语瀚堂典籍数据库标志着汉学研究进入四字节时代
为了解决古汉语数字化处理的瓶颈问题,人们在编码和计算机技术的结合方面做了很多的工作。首先,
大量的生僻字已经被置于四字节的编码区并确定了统一编码。其次,在微软的Office XP简体中文版中也预装了四字节的字库。《龙语瀚堂典籍数据库》处理系统正是在此基础上,采用了基于Unicode 的四字节编码和自然语言全文检索的典籍文献数字化构建技术,解决了四字节实际应用中的一系列相关问题,从而使四字节技术真正得到开发和应用,不但结束了古籍研究手工抄写、图片替代、生硬造字的历史,也标志着计算机汉字处理开始进入到了四字节字符的领域。由于该系统使用了国际通用的基于Unicode 的文字编码,使得它不但能够很好地支持二字节编码的常用汉字,而且彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化。
㈡、建立在数据库层级的学术研究的意义
在用户群较为集中的高校领域内,以往的学习和研究,往往人手一册《说文解字》或《集韵》、《广韵》,
在研究的过程中,无论是学生还是老师,总是处于一本一本翻书查找资料、手工加书签、做卡片的过程,更何况面临大量的造字工作。而当关于该学科所有的相关资料和典籍集合成库的时候,使用者不但可以自由的浏览、检索、下载和编辑,同时数据库本身的统计功能更可以使以往繁复的查询工作在毫秒间完成,大大减少研究者的工作量,例如可以瞬时得到关于《康熙字典》中对于《五音集韵》的引用次数是948次。除此之外更为可贵的是,建立在数据库层级的研究往往会延伸出更多地角度和发掘出更多的研究领域。后来者之所以能超越前人,除了对前人成果的继承之外,更需要有独特而客观的视角和发现。这一点对于五千年没有发生断层的中国传统文化的研究具有极其重要的意义。
三、龙语瀚堂典籍数据库的特点
㈠、具有在通用浏览器上自由编辑和浏览的功能
建立在Unicode超大字符集之上的《龙语瀚堂典籍数据库》处理系统采用四字节编码技术使计算机可
处理的文字种类数达到7万之多,即彻底解决这些四字节汉字在计算机平台上的录入、显示、编辑、检索、查询和管理。在所有已经装有Unicode超大字符集的计算机内,这些文字可以自如的在MS
您可能关注的文档
最近下载
- 公司事故隐患内部报告奖励制度.docx VIP
- 机房搬迁实施方案.pptx VIP
- DB65-T8022-2024 严寒和寒冷地区居住建筑节能设计标准J11921-2024(OCR).pdf VIP
- fNirs近红外成像技术原理-近红外脑成像系统.pdf VIP
- 2025年浙江省卫生系统事业单位人员招聘考试模拟试题及答案解析.pdf VIP
- 菏泽家政职业学院教师招聘考试历年真题.docx VIP
- 2011年南宁市事业单位公开考试招聘工作人员简章.doc VIP
- 建设年产40万吨蛋氨酸项目可行性研究报告写作模板-申批备案.doc
- 广东省东莞市2024-2025学年高一上学期1月期末英语试题含答案.pdf VIP
- 2025年新版医疗器械经营质量管理规范.pdf VIP
文档评论(0)