- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR软件将PDF转换成word详细的图形处理
OCR软件将PDF文件转换为WORD格式文件详细图解过程
在日常工作中常遇到需将PDF文件转换为WORD格式文件此类问题,由于生成PDF文件的源文件多种多样,有:从word文件、CAD制图文件、jpg文件以及扫描生成的图片文件等,因此企图用一种万能软件去实现是非常困难的。大多数情况是生成以整页为图像的无文字的word文件,这时就需要用OCR类软件进行识别处现。将本人实践成功的实例汇总成此文供大家参考:
一、用软件快速将PDF转换为Word文件。以汉王 PDF OCR 为例:
1、用汉王 PDF OCR 打开要转换的PDF文件:以GB 4616-84.pdf为实例。
2、在 “打开图象文件” 界面中点选 “pdf转换为 rtf文件”
3、在 “pdf转换为rtf” 界面中点选 “全部页页”或“页码范围”及“转换后打开RTF文件”后,点“确定”。
注1: RTF格式是是一种类似DOC格式(Word文档)的文件,有很好的兼容性,大多数的文字处理软件都能读取和保存RTF文档,比如Word、WPS Office、Excel等都可以打开。
4、转换完成后软件自动打开新生成的RTF文件:
此时可点选页面的文字,如能选中文字那就大功告成,那可以另存方法再从rtf文件转化为常用 doc格式文件。
如果是以整页为图像那就是一份没有文本文字的的RTF文件,那就就需要进行第二个方案:通过OCR软件将PDF转换为WORD文件。
注2:在 “打开图象文件” 界面中点选 “pdf转换为 txt文件”,结果或是有文字或无文字的纯文本文件。见下图:
二、通过OCR软件将PDF转换为Word文件,仍以汉王 PDF OCR 为例:
1、打开汉王 PDF OCR,依次点“文件”、“打开图像”:
2、选定要转换的PDF文件:仍以GB 4616-84.pdf 为例,这次直接点击“打开”。
3、在“选择拆分多页PDF”界面中确定相应选项,默认就行,点“确定”。
4、打开文件:
注3:这里是每一页是作一个打开的独立图象文件,程序关闭会自动删除。
5、倾斜校正:一般选自动倾斜校正,如不行话再选手动倾斜校正。
如是扫描的文件或相机翻拍照片必须经这一步。
6、版面分析:
依次点选“识别”、“版面分析”。
7、开始识别:
版面下半部用红框显示可识别文字的各个区域。版面上半部为可编辑区域,其中红色字符为软件提示可校正修改的字符。版面上半部有一个发灰背景方块,其中有光标字符的候选字符。
8、修改校正:
将光标移到要校正修改的字符,其上方出现供察看的黄色背景的原文字图形,也可从版面下半部用红框显示可识别文字的对应区域中判断出正确文字,然后点击版面上半部文字候选区中的正确文字,如查不见合适文字,只好手工输入。
例:将“罨”字修改为“器”字:
修改前:
修改后:
例4:将红圆点修改校正为“4”
修改前:
修改后:光标自动移动显示右边字符对应候选字符,如不需修改,再用鼠标移动至另一个修改字符。
9、转化生成txt文件:依次点击“输出”、“pdf文件转换为txt文件”。
注5:也可点击“到指定文件格式”,其子菜单尚有其它文件类型选项(如:xls)。
在“保存识别结果”指定相应选项和要保存的文件名:,
10、打开刚生成的txt文件,将其复制粘到一个新建的WORD文件中,并重新排版编辑成自已认可的格式。如缺少图象可从第一步生成的rtf文件中,复制粘贴并调整图象大小、切除多余部分。
11、我曾将一页打印的文件用照相机翻拍照片用上述方法转换成文本,见下面两图。不过翻拍时要注意光线、方正及变形小些,必要时用Photoshop 处理一下。
翻拍照片
OCR中未作任何修改转换的TXT文件局部视图
由于文页不够平整,翻拍时做不到每行都平行,差错稍多些。如用扫描仪那效果就好得多了。
三、Word文件转换为PDF文件:
如何将Word文件转换为PDF文件就很简单得多,软件及方法也很多。例如WPS Office (2012版)就有此功能,打开文件后另存为pdf文件就OK了,各位可自己查阅试一下。此外,各位也可以将Word文件转换生成pdf文件再按本文第一步方法再转换生成回Word格式文件,感受一下成功的喜阅。
本文就是从Word文件转换为pdf文件后才上传的,各位可以此文件为试验实例。
注6:本文提及的软件都可从各自的官方网站下载(免费版或试用版)。
文档评论(0)