- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向海量文献的数字化系统研究.doc
面向海量文献的数字化系统研究
摘 要:文章针对海量的文献资料如何快速录入计算机的方式方法提出了解决方案,首先通过对键盘录入、手写录入、听写录入和扫描录入四种文献数据采集方法的比较,提出了扫描录入是海量信息处理的唯一选择;其次,对扫描录入技术进行了历史回顾和现状分析;最后,提出了OCR数字化处理工厂的一揽子解决方案,即通过文字自动录入、流水线管理、质量控制和员工管理、系统管理四大功能实现海量文献的数字化。
关键词:OCR技术 扫描录入 文献识别 文献数字化
中图分类号:G203 文献标识码:A文章编码:1008-6938(2010)02-085-05
Solutions for Mass Literature Digitization
Su YunZhang QingLai (School OfManagement , Lanzhou University,Lanzhou,Gansu,730000)
Abstract:In this paper, a solution is proposed to input mass literature quickly into computer. First of all, through the comparison among the four kinds of data collection methodskeyboard entry, by-hand input, voice dictation, and scan inputscan input is found to be the only choice of mass information processing.Second, it is a review of the OCR technology and analysis of current situation. Finally a solution of OCR digital processing plant is put forward, that is to say, mass literature digitization can be perfected by text automatic input, pipeline management, quality control, personnel management, and system management.
Keywords:OCR technology;scan input; literature identification; literature digitization
CLC number:G203 Document code:AArticle ID:1008-6938(2010)02-085-05
1 引言
五千年的中国文化遗留下极其丰富且数量庞大的历史文献,这些文献主要保存形式以甲骨、简犊和纸张作为载体,通过编纂引得、通检、索引和汇编等工具书达成文献整理和查询的目标,由于文献数量巨大和人力有限的矛盾,经过系统整理和方便的检索工具非常稀缺,加之受存储空间的限制,许多年代久远的孤本书、善本书已出现了纸张脆弱、字迹变色、书页脱落和破损发霉等现象,很多出土的甲骨、简犊和纸张也出现了腐蚀和霉烂的状况,严重影响了文献的使用和保存寿命,文献的数字化迫切性已成为信息工作者的当务之急,图书馆和档案馆应该积极顺应网络时代的潮流,运用计算机相关的数字化技术,对文献进行加工和处理,建立书目数据库、全文数据库和综合检索系统,并通过光盘和网络等途径进行信息的传播。本文针对该问题提出了面向海量文献信息数字化的处理解决方案,尤其对文字的批量识别提出了系统化的解决途径。
2 海量文献数字化处理的现状
2.1 传统的海量文献数字化技术及比较
如何将海量的文献资料快速录入计算机是文献数字化研究工作的重要内容,而文献数字化的瓶颈就在于如何将海量的文献录入计算机的方式方法,就传统处理技术而言,数据的录入方法有键盘录入、手写录入、听写录入和扫描录入。
(1)键盘录入法。键盘录入法有阴阳码输入法、郑码输入法、形象码输入法、汉码系列输入法、智能二笔输入法、双笔码输入法、汉正码输入法等,总共不下几十种,最常用的是各式各样的五笔字型和拼音输入,其中五笔输入法常用的是王码五笔、陈桥五笔、念青五笔和极点五笔等,任何一种五笔输入法只要掌握文字的拆分规则就能使用;拼音输入法常用的有智能ABC、拼音加加、紫光拼音、搜狗拼音、中文之星智能狂拼、三好拼音、极点拼音、五万拼音、递推联想拼音等,只要会拼音就会输入,这两者录入速度不分伯仲,关键在操作人员的熟练程度。
文档评论(0)