- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
年第 期
2010 2
·信息工作·
面向海量文献的数字化系统研究
苏 云 张庆来 (兰州大学管理学院 甘肃兰州 730000)
摘 要:文章针对海量的文献资料如何快速录入计算机的方式方法提出了解决方案,首先通过对键盘录入、手写录入、听写录入和扫描录入四
种文献数据采集方法的比较,提出了扫描录入是海量信息处理的唯一选择;其次,对扫描录入技术进行了历史回顾和现状分析;最后,提出了
OCR 数字化处理工厂的一揽子解决方案,即通过文字自动录入、流水线管理、质量控制和员工管理、系统管理四大功能实现海量文献的数字
化。
关键词:OCR 技术 扫描录入 文献识别 文献数字化
中图分类号:G203 文献标识码:A 文章编码:1008-6938 (2010)02-085-05
Solutions for Mass Literature Digitization
Su Yun Zhang QingLai (School Of Management , Lanzhou University ,Lanzhou ,Gansu,730000)
Abstract :In this paper, a solution is proposed to input mass literature quickly into computer. First of all, through the comparison
among the four kinds of data collection methodskeyboard entry, by-hand input, voice dictation, and scan inputscan input is
found to be the only choice of mass information processing. Second, it is a review of the OCR technology and analysis of current
situation. Finally a solution of OCR digital processing plant is put forward, that is to say, mass literature digitization can be perfected
by text automatic input, pipeline management, quality control, personnel management, and system management.
Keywords:OCR technology ;scan input ;literature identification ;literature digitization
CLC number :G203 Document code :A Article ID :1008-6938 (2010)02-085-05
1 引言
2 海量文献数字化处理的现状
五千年的中国文化遗留下极其丰富且数量庞大的历
史文献,这些文献主要保存形式以甲骨、简犊和纸张作为 2.1 传统的海量文献数字化技术及比较
载体,通过编纂引得、通检、索引和汇编等工具书达成文 如何将海量的文献资料快速录入计算机是文献数字
献整理和查询的目标,由于文献数量巨大和人力有限的 化研究工作的重要内容,而文献数字化的瓶颈就在于如
矛盾,经过系统整理和方便的检索工具非常稀缺,加之受 何将海量的文献录入计算机的方式方法,就传统处理技
存储空间的限制,许多年代久远的孤本书、善本书已出现 术而言,数据的录入方法有键盘录入、手写录入、听写录
了纸张脆弱、字迹变色、书页脱落和破损发霉等现象,很 入和扫描录入。
多出土的甲骨、简犊和纸张也出现了腐蚀和霉烂的状况, (1)键盘录入法
原创力文档


文档评论(0)