- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对PDF文档的认识与应用探讨_OCR
论文导读::而若把这种格式的文档转换成PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。文档应用的常见情况。
论文关键词:PDF,Word,OCR,Acrobat,应用
PDF是英文Portable Document Format的缩写,意为便携式文档格式,其突出优点是将PDF文件格式的文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中,从而保持源文档排版风格和字体格式不变(这样就不用担心其他电脑上的字体不全了)。我们都知道,一种软件一般只编辑自己格式的文档,如果计算机里没有该软件,则文档就无法打开,而若把这种格式的文档转换成PDF格式,则只要电脑里装有PDF浏览器,就可以阅览到这些文档的内容,从而避免了必须安装相应软件的麻烦。PDF文档的优点还有很多,具体可参见文[1-2]。所以很多产品说明书、技术文档、大量电子版书籍、学术论文以及相关文件等资源均以 PDF文件为主流的电子图书格式存储于互联网之中,它已成为了互联网中电子文档分发广泛使用的格式。
1 PDF文档浏览
我们平常看PDF文件的软件是Adobe Reader,这是Adobe公司免费提供的用于阅读PDF文档的软件,相信很多人对它并不陌生,但比较起来,有个软件似乎也并不逊色,它就是Foxit Reader(福昕阅读器)。该软件支持Adobe Reader的所有功能特性,它具有令人难以置信的小巧体积OCR,安装空间比Adobe Reader小得多,只有区区几个MB,而AdobeReader 比较庞大,安装后甚至多达190MB。难能可贵的是,FoxitReader也有一些常用的编辑功能,比如可以制作书签,在PDF文档上输入字符、对内容进行标记等等,这对于普通用户来说,已基本可以满足日常办公和学习需求。
2 PDF文件编辑
Adobe公司的Acrobat软件可谓大名鼎鼎,广为人知。它是一款用来创建、编辑、审阅、批准、加密和在线共享PDF的软件,功能非常强大。比如要编辑PDF文档里的文字,可以选择视图工具栏打字机工具,打开其工具箱,便可以对文字进行编辑。此外还有注释工具、文本框、页眉页脚的添加等等。Acrobat有许多功能,如PDF文件分割与合并、Word格式转换成PDF格式、PDF页面顺序调整、页面管理等,基本上都可以用其它的专门软件来替代实现,网上有不少的专门工具(这些工具小巧玲珑,启动速度快捷,有的还是绿色版,根本无需安装),可以在百度里以相应关键词搜索下载。Acrobat的不足之处也是体积过于庞大,正是因为如此,我们有时可用Foxit PDF Editor取而代之。Foxit PDF Editor同样具有可靠而卓越的所见即所得的编辑功能,其中,快速导出电子书特定页面更是可圈可点,值得称叹。对于一本拥有数十甚至数百页的PDF电子图书,如果想将其中某些页面提取出来单独作为资料进行保存,一般的常规作法可能很难来实现,但在这款软件中,却很容易搞定。用户在Foxit PDF Editor中打开PDF电子图书,然后在软件的文档菜单中选择导出页面选项,在打开的导出页面对话框中,只要指定导出页面保存路径和导出页面的范围,软件即可进行自动导出了论文服务。在默认的条件下,软件是导出当前页面,但这款软件还可以进行批量导出,在该导出页面对话框的原始页面范围中先选中页面,然后指定需要导出的页面页码或页面页码范围即可OCR,如1,5,6,8,11页、5-12页等等。美中不足的是,Foxit PDF Editor不支持为PDF文档添加页码。
3 PDF文档应用的常见情况
3.1 从PDF文档中提取文字和图片
从PDF格式的资料文件中提取文字内容拷贝到Word文档中,方法很简单:在PDF浏览器(如FoxitReader)中打开该PDF文档,然后用鼠标选取,右击复制命令(放到了剪切板上),再切换到Word或记事本程序中,粘贴即可(或者选用选择性粘贴中的无格式文本复制到Word)。这与我们平常在Word中的操作没有什么不同。问题是,有些PDF格式的文档,我们却不能拷贝其文本内容,原因可能是:1、本身里面的内容是图片格式的,即源文件没有文本内容,整个文件由bmp格式的图像组成;2、这个PDF文档是加密的,需要破解,破解后即可进行选取、复制等操作。如果是图片格式的PDF,只能通过一些OCR识别软件(例如Office自带的OCR识别软件)来进行识别,即从图中抓取文字,通俗地说,就是抠字。
OCR是英文Optical Character Recognition的缩写,即采用各种光学设备识别手写或打印的字符。使用OCR技术,可通过扫描仪、数码
您可能关注的文档
最近下载
- 2001-2016年电子科技大学《601数学分析》历年考研真题汇总(含部分答案).pdf VIP
- 古典文献学第二章 文献的形成和流布.ppt VIP
- 2025年综合窗口岗位工作人员招聘考试笔试试题(附答案).docx VIP
- 纪念中国红军长征胜利89周年PPT课件.pptx VIP
- 2025年中国衬橡胶设备数据监测报告.docx
- (NEW)电子科技大学数学科学学院857概率论与数理统计历年考研真题汇编(含部分答案).pdf
- 中央民族大学非事业编制合同制职工招聘笔试试题及答案2021.docx VIP
- 哲理小故事 哲理小故事.doc VIP
- 2025中央民族大学非事业编制合同制职工招聘10人(第四批)笔试备考试题及答案解析.docx VIP
- (校级台账目录)“全国义务教育优质均衡发展县”督导评估台账目录(中小学通用稿-2024.03.30-修订).docx
文档评论(0)