复杂版面的文本图像图文分割算法.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
复杂版面的文本图像图文分割算法

维普资讯 图像处理 中文核心期刊 微‘计算机信患(测控自动化)2006年第22卷第5_1期 复杂版面的文本图像图文分割算法 Pagesegmentationalgorithm forcomplexdocumentimage (郑州信息工程大学)杨 洋 平西建 Yang,YangPing。Xijian 摘要:为了满足办公 自动化的实时性要求,本文提出了一种改进的 自顶向下的图文分割算法。该方法利用文本行基线之间的 距离 自适应的确定结构元素的大小。克服 自项 向下算法要求对页面有先验知识 的缺点。实验表明,本文提 出的算法分割准 确 .速 度快 。 关键词:图像分割 膨胀运算;结构元素;文本图像 中图分类号:玎’391 文献标识码:A ons. Weapplythedistanceoftextbaselinestofixingonhtestructuringelement. Itovercomeshtedisadvantagethathtevalueis predetermined.Experimentalresultsshowhtehighaccuracynadrapidityof 之。grIlentingdocumentimage. 两 1 己l吉 任 ,不可避免地会使文本图像产生旋转倾斜,而文 l闳羞 随着信息日和商业社会的发展 本图像的倾斜会使得段落、行和字符的准确分割发生 , 对办公 自动化提出 困难, 因此文本图像的倾斜校正成为文本图像处理过 同l越来越多的要求。其中,文本图像的自动处理是办公 程中最基本的预处理技术。 自动化的一个重要组成部分,其 目的是在数字文本图 Hough变换是直线检测中一种较好的方法, 具有 L噩 像中识别文字、图形和图像 ,并按照需要提取相应信 稳定性和抗干扰性好的特点. 能检测出图像中任意方 息。随着图像处理与识别技术的发展 ,OCR(Optical 向的直线,即使在噪声地干扰下,直线变为一些间断 CharacterRecognition)技术越来越多地应用于信函、公 的点划线,Hough变换也能把它检测出来。由于文本图 文、报表的字符识别处理中。由于文本图像的页面内 像中文本行也是由一些间断的点和线组成 ,因此 容多种多样,包含图片、表格等非文字区域 ,因此为了 Hough变换适用于文本图像的倾斜检测。本文利用 提高文字识别的效果 ,在进行字符识别前 ,应该对文 Hough变换求出文本图像的倾斜角度后,将图像进行 本图像进行分割,提取出文字区域。对于已有的文本 倾斜校正。后续的处理则认为文本图像是在水平放置 图像分割与分类算法大体上可以分成自顶向下和自 的情况下进行的。 底向上两类。自顶向下算法是从文本图像的整体出 3 基于数学形态学的版面分割方法 发,将图像分割成几个属性不同的小区域 ,其优点是 速度快,缺点是要对页面有一定的先验知识;而 自底 3.1文本行的填充 向上方法基本都是将分割与分类过程结合起来进行 文本 图像版面分割的 目的是为了得到相对独立 的,因此耗时较多,但其不需要对图像有先验知识。 的分区,即文本区域 、插图区域和表格区域等,而不是 因此,为了满足办公 自动化的实时性要求,本文 单个字符的小连通区域。基于连通域的方法是先找出 提出了一种改进的自顶向下算法 ,该方法利用文本行 图像中的所有连通域。然后再根据字符内部的间距 、 基线之间的距离 自适应的确定结构元素的大小 ,克服 字间距和行间距等,对他们进行合并已形成大的连通 了自顶向下算法要求对页面有

文档评论(0)

ljxmax118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档