复杂版面的文本图像图文分割算法.PDFVIP

下载本文档

151
0
约1.01万字
约 3页
2017-09-04 发布于上海
举报
版权申诉

复杂版面的文本图像图文分割算法.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

复杂版面的文本图像图文分割算法

维普资讯图像处理中文核心期刊微‘计算机信患(测控自动化)2006年第22卷第5_1期复杂版面的文本图像图文分割算法 Pagesegmentationalgorithm forcomplexdocumentimage (郑州信息工程大学)杨洋平西建 Yang，YangPing。Xijian 摘要：为了满足办公自动化的实时性要求，本文提出了一种改进的自顶向下的图文分割算法。该方法利用文本行基线之间的距离自适应的确定结构元素的大小。克服自项向下算法要求对页面有先验知识的缺点。实验表明，本文提出的算法分割准确．速度快。关键词：图像分割膨胀运算；结构元素；文本图像中图分类号：玎’391 文献标识码：A ons． Weapplythedistanceoftextbaselinestofixingonhtestructuringelement． Itovercomeshtedisadvantagethathtevalueis predetermined．Experimentalresultsshowhtehighaccuracynadrapidityof 之。grIlentingdocumentimage．两 1 己l吉任，不可避免地会使文本图像产生旋转倾斜，而文 l闳羞随着信息日和商业社会的发展本图像的倾斜会使得段落、行和字符的准确分割发生，对办公自动化提出困难，因此文本图像的倾斜校正成为文本图像处理过同l越来越多的要求。其中，文本图像的自动处理是办公程中最基本的预处理技术。自动化的一个重要组成部分，其目的是在数字文本图 Hough变换是直线检测中一种较好的方法，具有 L噩像中识别文字、图形和图像，并按照需要提取相应信稳定性和抗干扰性好的特点．能检测出图像中任意方息。随着图像处理与识别技术的发展，OCR(Optical 向的直线，即使在噪声地干扰下，直线变为一些间断 CharacterRecognition)技术越来越多地应用于信函、公的点划线，Hough变换也能把它检测出来。由于文本图文、报表的字符识别处理中。由于文本图像的页面内像中文本行也是由一些间断的点和线组成，因此容多种多样，包含图片、表格等非文字区域，因此为了 Hough变换适用于文本图像的倾斜检测。本文利用提高文字识别的效果，在进行字符识别前，应该对文 Hough变换求出文本图像的倾斜角度后，将图像进行本图像进行分割，提取出文字区域。对于已有的文本倾斜校正。后续的处理则认为文本图像是在水平放置图像分割与分类算法大体上可以分成自顶向下和自的情况下进行的。底向上两类。自顶向下算法是从文本图像的整体出 3 基于数学形态学的版面分割方法发，将图像分割成几个属性不同的小区域，其优点是速度快，缺点是要对页面有一定的先验知识；而自底 3．1文本行的填充向上方法基本都是将分割与分类过程结合起来进行文本图像版面分割的目的是为了得到相对独立的，因此耗时较多，但其不需要对图像有先验知识。的分区，即文本区域、插图区域和表格区域等，而不是因此，为了满足办公自动化的实时性要求，本文单个字符的小连通区域。基于连通域的方法是先找出提出了一种改进的自顶向下算法，该方法利用文本行图像中的所有连通域。然后再根据字符内部的间距、基线之间的距离自适应的确定结构元素的大小，克服字间距和行间距等，对他们进行合并已形成大的连通了自顶向下算法要求对页面有