PDF文件图片识别技术研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PDF文件图片识别技术研究

PDF文件图片识别技术研究   摘 要   PDF(portable document format)文件是用于电子文档分发的理想格式,是全球电子文档分发的开放式标准。从PDF文件中提取可供识别的图像,有利于图像识别和信息处理。详细介绍了一种从PDF文件中提取可识别图像的方案。   【关键词】PDF 图片识别 文件格式转换   1 前言   PDF是Portable Document Format(便携文件格式)的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF文件格式的优点在于,文件格式与软硬件以及操作系统的平台无关,无论在Windows、Unix还是苹果的Mac OS操作系统中都可以无障碍的使用,并且能够达到相同的显示效果。PDF文件格式以其卓越的特性成为在互联网上进行电子文档发行和格式化信息传播的理想文件格式。当前,在互联网上发布的科技论文和电子书籍大部分是以PDF格式提交。但是,PDF文件格式产生的初衷即在于精确的描绘页面,满足电子出版领域高质量的要求,而将文件内容的编辑需要置于次要的位置,故PDF格式文件的着重点在于描述文档的打印格式,而没有描述原始文档内的数据结构,因此,在实际应用中时常出现PDF文件“只能看不能改”的现象。   2 目的、原理及实现方式的研究   在制作电子书,需要调整编辑打印文档,故需解析PDF文档,从PDF文档里抽取出想要的元素,比如文本段落、图片、表格、公式等。在PDF电子书中,如果该文档有插图,一般在编辑的时候都会给插图附注一个图片的说明,即图注。在抽取pdf文档里的图片元素时,现有技术只能从pdf文档里抽取出该文档里的插图,然后在用抽取出的插图编辑文档的时候,手动给抽取出的插图加上图注。这种方式不仅效率不高,而且准确性也无法保证,因为看到图片,不知道图注,编辑人员是不太清楚这张图片想说明什么,且若图片数量过大,不仅会造成手动编辑的工作量大,耗时长,而且容易造成图注错标或者漏标等问题。   2.1 研究目的   在于提供一种识别PDF文件中图注的方法和装置,以解决现有的PDF文件中图注无法自动识别导致的编辑工作量大及图片的图注容易漏标或者错标的技术问题。   2.2 实现原理   为实现上述目的,采用的技术方案如下:   (1)解析并识别出PDF文件当前页的文本块对象和图片块对象;   (2)对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象;   (3)判断最相邻的文本块对象是否含有用于标识图片的标识字符,若是则判定最相邻的文本块对象为对应的图注块对象;   (4)将识别出的图注块对象与对应的图片块对象匹配并关联。   在处理匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象时,从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象;再在候选的图注块对象中确定与待匹配的图片块对象在垂直方向上最相邻的文本块对象。   在处理匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象的步骤之前从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象;在候选的图注块对象中确定与待匹配的图片块对象在垂直方向上最相邻的文本块对象。   然后,在判断最相邻的文本块对象是否含有用于标识图片的标识字符之前判断最相邻的文本块对象的行高是否为一行或者两行文字高度,若是则执行后续步骤,若否则判定待匹配的图片块对象无图注。判断待匹配的图片块对象是否位于当前页的最下方,若是则判定下一页最上方的文本块对象为其图注块对象。   (1)解析识别模块,用于解析并识别出PDF文件当前页的文本块对象和图片块对象;   (2)间距匹配模块,用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象;   (3)字符判断模块,用于判断最相邻的文本块对象是否含有用于标识图片的标识字符,若是则判定最相邻的文本块对象为图注块对象;   (4)关联模块,用于将识别出的图注块对象与对应的图片块对象匹配并关联。   第一选择模块,用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前,从识别出的文本块对象中选择在垂直方向上的高度低于待匹配的图片块对象的高度的文本块对象作为候选的图注块对象。   第二选择模块,用于对待匹配的图片块对象确定与其在垂直方向上最相邻的文本块对象之前,从识别出的文本块对象中选择字体字号不同于PDF文件正文的字体字号的文本块对象作为候选的图注块对象。   行高判断模块,用于在判断最相邻的文本块对象是否含有用于标识图片的标识字符之前,判断最相邻的文本块对象的行高是否为一行或者两行文字高度,若是则跳转至字符判断模块,若否则判定待匹配的图片块对象无

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档