- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
兼职编辑识别校对教程
PDF、JPG数据加工教程
目录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc315944634 第一章 软件介绍 PAGEREF _Toc315944634 \h 2
HYPERLINK \l _Toc315944635 第二章 PDF转jpg PAGEREF _Toc315944635 \h 3
HYPERLINK \l _Toc315944636 第三章 汉王识别 PAGEREF _Toc315944636 \h 4
HYPERLINK \l _Toc315944637 第四章 word编辑 PAGEREF _Toc315944637 \h 9
HYPERLINK \l _Toc315944638 第五章 补充 PAGEREF _Toc315944638 \h 15
HYPERLINK \l _Toc315944639 第六章 其它要求 PAGEREF _Toc315944639 \h 16
软件介绍
首先电脑上需要有以下几个软件:
--word :用于编辑整理最终识别出的TXT文档。
--汉王 :用于识别jpg图片格式的文件,最终导出来为TXT文档。
PDF编辑软件 :用于阅读PDF格式的文件,同时可以把PDF文件另存为jpg格式,方便识别,因为PDF在汉王里面打开不太稳定。
--分辨率调整软件 :有的jpg格式的文件分辨率不够高,导致识别出来满篇红字或乱码,这种情况就可以用该软件批量调整,分辨率300为最佳,调整后一部分书可以提高识别质量。
第二章 PDF转jpg
首先给的文件格式一般有两种
PDF格式 jpg文件包格式
如果是PDF格式,那么就需要在PDF编辑软件里另存为jpg格式,方法如下:
打开文件
自己在电脑上指定位置建一个以书名命名的文件夹,如“我的文档—清水里的刀子”。再点击PDF工具栏的“文件—另存为”出现以下界面
把文件的保存类型改为jpg格式
点击保存
保存完了之后PDF转为jpg这道程序就做完了。
第三章 汉王识别
运行汉王程序
点击“文件—打开图像”,然后选择你把存的jpg的文件夹,出现以下界面
点击某一文件然后“ctrl+A”全选 ,再点击打开,出现以下界面
注:如果书本页数过多,也可以一次只识别一部分,可以按住shift再点击文件,比如只想识别前100页,那么就点第100页,然后点打开。
同样处于这个界面时你可以点击左边的文件全选按F8或者是点击上面的识别按钮全部自动识别,也可以一页一页的识别。自动识别出来的界面如下
右边分为两栏,上面是文字 ,下面是图片,文字里红色字体大部分是识别错误的,需要手动改。有的不是红色字体部分也有错误,所以要稍加仔细一行行看,刚开始可能速度慢,做得熟练了就会快很多。页眉和页码要删除。目录和版权页不识别。光标有两种形式,默认的是替换形式的横光标,如果不习惯,怕掉字的话可以按一下insert格式换成一般形式的竖光标。
当遇到图文结合的书,或者页眉较多的书,建议不要自动识别,直接挨个一页页识别,选择文件之后,点击把右下方的图片预览变小,然后匡选需要识别的文字区域,结果如下,然后再点F8识别。
对于文字构成较复杂的页面,可以一段段框选,识别时会以序号顺序来排列文字
要取消选框就直接点击选框点delete,然后重新框选。如果想取消该页面的识别就点击页面再按Esc键,然后手动重新框选识别。
识别完了之后全选左边识别过的文件,点击“输出—到指定格式”就出现以下界面
输入文件名,点击保存,这样文本就以TXT格式导出外面方便后期编辑。
注:如果一本书识别了80页然后没导出文件就关闭了,那么汉王会自动保存,识别进度,所以不用担心数据丢失,下次打开接着识别就行了。
有时还会遇到汉王不稳定的情况,比如打开图像没反应,那么你可以直接把文件夹里的图片选择了直接往汉王里拖,效果是一样的。
当保存为一个txt文档时识别这道程序就完成了,如下。
注意:在识别过程中不得偷工减料,除了目录图片和版权页不用识别,其余都需要,有的书可能好识别错误少,有的可能错误多,但是识别时一定要尽量识别完整,不要明明看到的错误都不改,乱码也没改,这个我们会做抽查的,不合格是要返工的,同时也不需要太过认真,不用精确到每个标点每个字,只是说在能力范围内保证准确。
在识别的过程中如果一个错误频繁出现,如“了”都识别成了“r”,那么可以先用文档或纸记下来,导出来后在word里批量改正,这样可以节省很多时间。如果对汉王识别还有不清楚的,可以自己多学习下,有的经验要靠自己去慢慢发现。
第四章 word编辑
新建一个word文档,用书名命名,把TXT文档打开全选复制粘贴到word
文档评论(0)