基于中文信息处理的古籍整理研究评述_图书馆管理论文.docVIP

下载本文档

0
0
约 7页
2017-08-23 发布于北京
举报
版权申诉

基于中文信息处理的古籍整理研究评述_图书馆管理论文.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于中文信息处理的古籍整理研究评述_图书馆管理论文基于中文信息处理的古籍整理研究评述_图书馆管理论文 [摘要]随着计算机技术的飞速发展，基于中文信息处理的古籍整理已成为近年来的研究热点，并且取得一些可喜的成绩。在搜集整理当前研究与应用成果的基础上，从古籍的自动录入、自动断句、自动编纂以及自动翻译等方面对基于中文信息处理技术的古籍整理的研究现状进行概述，同时分别探讨这几个方面仍然存在的问题，并展望其今后的研究工作。　　[关键词]古籍整理　中文信息处理　古籍研究　　　　1　引言　　　　在人类几千年的历史发展中，我们的先祖利用文言撰写了大量的作品，例如：史书、笔记、方志、字书、诗词、杂考等等。这些浩如烟海的古籍记载了华夏民族的历史和辉煌，是极其珍贵的文化遗产。因此如何对它们进行有效地整理和深入地研究是我们当代科研工作者责无旁贷的任务。传统古籍整理的方式一般都是人为的手工方式，这是一项极艰难极复杂的工作，需要大量的时间和耐心。但当计算机出现以后，人们就期盼能用计算机来进行古籍整理研究，而中文信息处理技术就是实现这一美好愿望的有效手段。　　现在对中文信息处理通常的理解是：用计算机来加工处理中文的信息，属于涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。中文信息处理包含汉字输入、文字识别、语音识别、汉语分词、语义分析、语言翻译、信息检索等多个分支。汉字输入就是指将汉字信息输入到计算机，常见的输入方法有键盘输入和联机手写输入；文字识别是指用计算机自动地识别出写在介质上的汉字，文字识别一般可分为印刷体识别和手写体识别两种；语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的信息处理技术，具有代表性的方法主要有隐马尔可夫法和神经网络法；汉语分词就是指利用计算机自动地将一个句子中的每个词分开，即类似于英语中用空格将每个单词隔开，目前的分词方法归纳起来有三种类型：机械分词法、语义分词法和人工智能法；语义分析指的是在分析句子的句法结构和辨析句中每个词词义的基础上，推导句义的形式化表示；语言翻译就是用计算机来实现不同语言之间的翻译，被翻译的语言通常称作源语言，翻译成的结果语言称作目标语言；信息检索是指计算机通过特定的算法或模型从各种信息文档中搜索有价值的信息或知识的一种高技术。当前越来越多的研究者将这些中文信息处理技术应用于古籍整理研究中，尤其是在古籍的录入、标点、编纂等方面获得了显著的成果。　　　　2　古籍自动录入　　　　传统的古籍录入方式多采用手工的形式，通过人为的键盘输入或是联机手写输入的方式将古籍中的文字输入计算机，这种方法要花费大量的人力和时间，而且容易出错。因此要实现古籍中的文字信息高速、自动输入到计算机，目前多采用光学字符识别(OCR)技术来进行古籍的录入。OCR技术可以高速地辨别纸张上的文字，并将其转化为可编辑的文字。古籍自动录入大致要经过图像扫描、预处理、版面分析、文字区域提取、文字识别、后处理等几个步骤，具体过程如图1所示：　　　古籍自动录入技术运用比较成功的例子是“数码翰林”软件，该软件已经制作了保持原书排版风格的《四库全书》及《四部丛刊》等电子图书。古籍自动录入技术最主要体现在古籍的数字化工作中，而到目前为止古籍数字化已经取得了丰硕的成果，大量的古籍数据库检索系统不断涌现，例如北京大学的《全唐诗》和《全宋诗》电子检索系统、陕西师范大学的《二十五史》全文检索系统以及台湾大学的中华电子佛典线上藏经阁大正藏全文检索系统等等。　　尽管已经有了成功应用的实例，但是当前古籍的自动录入依然面临着如下问题：　　·古籍自动录入的优劣依赖于文字识别的质量，然而文字识别本身就存在着诸如汉字类别较大、汉字结构复杂且相似字较多等困难。　　·现在的计算机汉字字库中缺少古籍中经常出现的冷僻字和异体字，例如汉字的赋中，作家为了炫耀自己的才能，往往罗列很多生僻字，有“字林”之讥，如《上林赋》、《子虚赋》，等等。　　·经常会由于仪器硬件设备的问题或古籍中的字迹不清晰，造成图像扫描质量差且存在大量噪声，从而使得文字识别率低。　　针对上述问题，今后研究工作的重心应该放在提高文字识别的效率和完善汉字字库上来，尤其是前者，鲁棒性更强的文字识别技术对于古籍的自动识别是至关重要的。　　　　3　古籍自动断句　　　　与现代人不同，古人写文章是不用标点符号的，因此要正确理解古籍中文章的词义或句义，就需要断句。断句就是指把没有标点符号的文字，整理成为清晰可读的句子。传统的方式多为人工断句，这种方式费时费力，因此最近很多研究者开始尝试利用计算机来实现古籍的自动断句。古籍自动断句的，大致要经过文本预处理、文本断句、结果反馈等几个步骤，如图2所示：