古籍数字化中的汉字处理问题.doc

下载文档

8
0
约5.98千字
约 4页
2019-01-23 发布于湖北
举报
版权申诉
保障服务

古籍数字化中的汉字处理问题.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

古籍数字化中的汉字处理问题作者：　　从上世纪80年代中文古籍数字化工作开始到今天，已有二十多年的历史了。从最初简单的计算机录入文本，发展到图像扫描、文本字符识别、全文检索、版式影像还原以及在线字典、词典、年表等辅助工具的研制，人们能够通过磁盘、光盘、网络等途径检索、阅读的古籍就数量而言已非常可观，常见的古籍几乎都已有了数字版本，在使用方面也已经很大程度上改变了传统的图书阅读、翻检的习惯。从事古籍数字化工作的既有学者个人，也有商业机构，还有各藏书机构如图书馆、博物馆以及教学和研究机构。在现有的古籍数字化产品中，或以文献特色胜，或以文献数量胜，或以使用功能胜。可以这样说，在公开的中文文献数据库中，无论是数量还是采用的技术手段，古籍数字化工作所取得的成就都是最为耀眼的。另一方面，古籍作为一种特殊的文献，其数字化工作的复杂程度远远超过一般文献。对古籍数字化的研究，不仅有助于推进古籍数字化工作本身，而且对于其他类型文献的数字化以及文献数字化的基本理论及方法和数字图书馆建设等等都有重要的参考作用，因此，引起了许多学者的关注。 　古籍数字化是数字时代利用数字技术和现代信息技术对古籍进行整理的工作，与传统的古籍整理工作既有相同点，也有不同点；既有老问题，也有新问题。它们之间的不同点和新问题，正是古籍数字化工作必须要考虑和解决的。?古籍数字化工作中所遇到的问题很多，语言文字处理问题是一个最基础也是最重要的问题，下面我们就此问题进行重点讨论。 　在传统的古籍整理工作中，除了需要人脑思考的部分外，语言文字问题并不是太大的问题。而在古籍数字化工作中，语言文字问题就成了一个最为关键、处理起来最为困难的问题了。古籍数字化，首先要将过去抄写、印刷的东西转换为计算机可读并能在屏幕上准确再现的代码，其次要解决数字化另一个最重要的目标：检索、统计以及更高层次的聚类分析和判断，这些功能目标实现的基础都是语言文字。 　在以往的古籍数字化工作中，学术界关注的主要是用繁体字客观再现古籍内容的问题，所要考虑的主要是如何解决计算机系统中汉字字符集是否有足够多的字符来转换与再现古籍文本中字符的问题，以及由于不同数字化项目采用不同的汉字字符编码方式而带来的互不兼容、不能共享资源的问题。目前业界大多采用Unicode作为文字处理的标准，Unicode已经定义了七万多汉字，不久将再扩展二万个汉字，因此，汉字字符不足以及编码混乱的问题已基本上得到了解决。但是，古籍数字化的内容并不只是字符的转换问题，要实现运用数字技术与现代信息处理技术对传统文献通过信息加工、信息重组达到方便使用、知识挖掘的目的，实现数字时代对中华传统文化的继承与弘扬的目的，这才是古籍数字化工作最主要的内容和最重要的目标，而要达到这个目标，还有许多问题需要解决，汉字的处理仍然是一个基础的和关键的问题。 　中国古代汉字基本的构造特点以及使用特点前人曾将其归纳为“六书”，即已见其复杂性，兼之汉字经过了几千年不断的繁化与简化，一字多形，一字多义，一字多音是古代汉字最显著的特征。古代汉字形、音、义的变化，有些是有规则的，有些则是无规则的，加上“通假”等习惯用法以及使用环境不同等等因素，使得汉字与汉语的表现形式非常丰富，同时也就增加了对其变化规律把握的难度。譬如说，古籍数字化工作中所遇到的大量的异形字、避讳字、通假字的处理问题，不是一个简单的字符处理问题，而是关系到能否很好地进行古籍文本的数字转换以及在应用层面上相关功能的实现问题，当然，目前业界普遍采用的Unicode本身也有许多问题。 　关于异形字问题。由于古籍传抄、刊刻的情况千差万别，因此在古籍中不仅有正字与异体字、正字与俗字的问题，还有由于各人审美观念不同或者因抄写刊刻的习惯而随意改变汉字笔划的位置、形状造成的异形字。正字与异体字、俗体字的区别，传统上已经有了共识，相对来说易于处理，而异形字的情况就不同了。在进行古籍数字转换时，操作人员限于水平，不能识别古籍中的异形字，不得不“依样画葫芦”，生造出一些新字。由于每一个汉字都有一个对应的编码，如果将异形字都当作不同的汉字，其结果就是大量生造Unicode表外字，不仅增加了录入的工作量，更重要的是将对检索和资源共享等产生重大的影响，因为使用者在检索时并不清楚某部书中某字的具体写法(甚至一部书中同样的字也有许多种变体)，因此实际上无法进行检索或者出现大量漏检。同时，由于大量生造的Unicode表外字，也必然会大大增加数据库在开放、共享方面的困难。 　关于避讳字与通假字问题。避讳是中国历史上一个非常重要的文化现象，过去曾有许多学者对此进行过深入的研究，也有一些相关的研究成果与工具书可资参考。但是，以往学者们所研究的主要是所谓“公讳”、“国讳”即历代帝王(及皇室成员)、圣贤名讳的问题，但古籍数字化工作中所遇到的避