从pdf图片中抓取文字.docVIP

下载本文档

11
0
约2.23千字
约 3页
2016-07-05 发布于安徽
举报
版权申诉

从pdf图片中抓取文字.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从pdf图片中抓取文字.doc

从pdf图片中抓取文字 Home 今日一点, 技术分析从pdf图片中抓取文字 Posted on April 23, 2008 by 白菜林从pdf中抓取文字原理：利用office的虚拟打印机Microsoft Office Document Image Writer把图片或者pdf打印到tiff或者mdi格式的文件，然后关联使用Microsoft Office Document Imaging打开tiff或者mdi文件，然后选择“工具”菜单下的“使用ocr识别文本”，识别完成后，在选择“工具”下的，“将文本发送到word”（或者直接选择“将文本发送到word”，会提示你先进行ocr识别，然后会自动开始），最后将把整个PDF文件识别输出到word文件中。原理就是这样子啦，操作也很简单，Microsoft Office Document Imaging的安装我就不说啦，早些时候已经说过啦，可以参考：windows的的墨水服务『office2007的Microsoft Office Document Image安装』。下边说说pdf文件中文字的识别以文本形式保存的PDF文件：可以使用gmail发附件然后使用view html查看或者acrobat reader直接选中文字部分复制粘贴到记事本中或者word中即可。以图片形式存在的pdf文件：这样gmail的附件就无能为力啦，就用到Microsoft Office Document Imaging啦，不过这个貌似对中文支持的不好（我的office 2007 +xp sp2的环境），这个倒是个多面玲珑角色，可以搞定很多格式文档的转换。加密的pdf文件：先解密在继续啦。繁体pdf文件：先识别到word，然后利用word的“工具”－－“语言”－－－“中文繁简转换” 上边说过这个Microsoft Office Document Imaging对中文的图片中的文字识别的可能有问题（直接崩溃啦嘛），so 昨晚我抓去图片中的文字就不是使用的这个Microsoft Office Document Imaging，而是使用的尚书七号，如果需要可以到这里下载地址：/self.aspx/soft/shangshuqihao-ocr-zhuceban.zip 首先把pdf转换为图片bmp，jpg的都行，也可以用photo shop来搞成图片（不过注意图片质量一定要好啊）。然后使用尚书七号打开，具体步骤：工具菜单——版面分析（自动分析后若有错误可以自己用鼠标修改）——开始识别——纠错（有错误就改吧，鼠标选中就修改啦！！）——输出到指定格式——保存为txt的文本就是啦（根据自己需要啦有txt，rtf,htm,xls）。这几个图没分顺序，不过很好认啦。补充：1，由于虚拟打印到Microsoft Office Document Image Writer 比较慢，并且形成的虚拟文件很大，1本200多页的书大约是60M，因此会严重影响机器的运行速度和C盘空间以及内存空间，建议配置好的机器一次转化不要超过200页，配置差的不要超过100页，同时打印时在右下角系统栏中会出现打印机图，你可以双击，看到打印任务的进度，以免以为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件，否则你的c盘很快会被用光。 2，建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况，可以先打印到snagit虚拟打印机，会自动生成tiff文件，速度比Microsoft Office Document Image Writer快，然后在snagit中，选择打印机为Microsoft Office Document Image Writer打印机，（相当于再打印到Microsoft Office Document Image Writer打印机），然后选择snagit—outputs下的printer，然后选择snagit—-file—-finish output，即可生成msi文件，其他一样。 3，对于把pdf转换为图片格式可以使用更专业的软件，搜下就有啦“pdf转换为图片”。比如：pdftojpg 转载原创文章请注明，转载自：[Lins Space|Only] 本文链接: /technical-analysis/pdf-crawl-from-the-text-in-the-picture-1007/ Google比较注重原创性和时效性，若没有找到需要的内容可尝试以下搜素。 This entry was posted in 今日一点, 技术分析 and tagged Microsoft, Office, pdf. B