- 4
- 0
- 约2.23千字
- 约 3页
- 2017-06-08 发布于北京
- 举报
从pdf图片中抓取文字
Home 今日一点, 技术分析 从pdf图片中抓取文字
Posted on April 23, 2008 by 白菜林
从pdf中抓取文字原理:
利用office的虚拟打印机Microsoft Office Document Image Writer把图片或者pdf打印到tiff或者mdi格式的文件,然后关联使用Microsoft Office Document Imaging打开tiff或者mdi文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”(或者直接选择“将文本发送到word”,会提示你先进行ocr识别,然后会自动开始),最后将把整个PDF文件识别输出到word文件中。
原理就是这样子啦,操作也很简单,Microsoft Office Document Imaging的安装我就不说啦,早些时候已经说过啦,可以参考:windows的的墨水服务『office2007的Microsoft Office Document Image安装』。
下边说说pdf文件中文字的识别
以文本形式保存的PDF文件:可以使用gmail发附件然后使用view html查看或者acrobat reader直接选中文字部分复制粘贴到记事本中或者word中即可。
以图片形式存在的pdf文件:这样gmail的附件就无能为力啦,就用到Microsoft Office Document Imaging啦,不过这个貌似对中文支持的不好(我的office 2007 +xp sp2的环境),这个倒是个多面玲珑角色,可以搞定很多格式文档的转换。
加密的pdf文件:先解密在继续啦。
繁体pdf文件:先识别到word,然后利用word的“工具”--“语言”---“中文繁简转换”
上边说过这个Microsoft Office Document Imaging对中文的图片中的文字识别的可能有问题(直接崩溃啦嘛),so 昨晚我抓去图片中的文字就不是使用的这个Microsoft Office Document Imaging,而是使用的尚书七号,如果需要可以到这里下载地址:/self.aspx/soft/shangshuqihao-ocr-zhuceban.zip
首先把pdf转换为图片bmp,jpg的都行,也可以用photo shop来搞成图片(不过注意图片质量一定要好啊)。然后使用尚书七号打开,具体步骤:
工具菜单——版面分析(自动分析后若有错误可以自己用鼠标修改)——开始识别——纠错(有错误就改吧,鼠标选中就修改啦!!)——输出到指定格式——保存为txt的文本就是啦(根据自己需要啦有txt,rtf,htm,xls)。
这几个图没分顺序,不过很好认啦。
补充:1,由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要 超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后 请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
2,建议如果发生打 印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit—outputs下的printer,然后选择snagit—-file—-finish output,即可生成msi文件,其他一样。
3,对于把pdf转换为图片格式可以使用更专业的软件,搜下就有啦“pdf转换为图片”。比如:pdftojpg
转载原创文章请注明,转载自:[Lins Space|Only]
本文链接: /technical-analysis/pdf-crawl-from-the-text-in-the-picture-1007/
Google比较注重原创性和时效性,若没有找到需要的内容可尝试以下搜素。
This entry was posted in 今日一点, 技术分析 and tagged Microsoft, Office, pdf. B
您可能关注的文档
- 人气最高的手机铃声排.doc
- 人活着不要太累:受用1生的舍得智慧.doc
- 人活着就要有1身价值.doc
- 人流不可不知的常识(3).doc
- 人版3语上期末卷[1].doc
- 人物刻画风景描写词语大全..doc
- 人物外貌描写的词语及句子.doc
- 人物性格塑造的6个方法.doc
- 人物照片转手绘效果PS教程.doc
- 人物类作文经典素材和使用范例5苏武.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
原创力文档

文档评论(0)