多层次可信度指导下的自底向上的版面分析算法.pdfVIP

多层次可信度指导下的自底向上的版面分析算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多层次可信度指导下的自底向上的版面分析算法.pdf

第16卷第2期 模式识别与人工智能 Vd.16No.2 2003年6月 PR&AI‘ June2003 多层次可信度指导下的自底向上的版面分析算法 陈 明 丁晓青 吴佑寿 (清华大学电子工程系北京 100084) 摘要版面分析是文档数字化中的关键问题.本文首先将版面分析算法分为两类:基于形状的和基于纹理的,然 后提出了一个基于多层次基元的版面分析模型.根据此模型,版面分析问题被简化为计算每个层次上的最佳基元 划分.我们提出了连接强度和多层次可信度的概念并描述了~个基于多层次可信度的自底向上的算法.此算法具 有很强的适应性,可以处理各种类型的样张.实验表明了算法的有效性. 关键词版面分析,基元,多层次可信度,连接强度 中图法分类号TP391.4 引 言 开始,一个页面首先分割成几个大的区域,然后每个 区域再递归分割成子区域【2.3J.自底向上的方法从 像索点开始,将相邻的部分根据局部特征的相似性 版面分析在文档图像分析(Document Image 合并成为一个小区域,小区域再连续地合并为大区 Analysis)领域受到越来越多的重视.在将现有纸介 域[4,5J.另外还有将两种方法结合起来的混合 质的信息数字化的过程中,OCR技术已相当成熟, 法[6.7|,以及主要依据背景特征进行分割的基于背 可以迅速有效地获取文本.但是一方面复杂的版面 景的方法等[8,9J.这类方法的主要缺点是很大程度 格式导致oCR无法直接运用,另一方面用户可能希 地依赖于特殊的规则和经验性的阈值,对日益复杂 望同时保留原始的版面信息.因此,作为OCR技术 的版面格式的适应性较差. 和版面复原的基础,版面分析成为一个关键的问题. 基于纹理的方法主要思路是将图像看作是一些 一般将版面分析算法分为如下几类:自顶向下、 具有不同纹理的区域的组合.文本具有一系列相同 自底向上、混合法【1|.这种分类方法在很长一段时间 方向的文本行,行中具有一系列大小基本一致的字 内被多数研究人员所认可.但近年来,新的算法层出 符.这种相对一致的纹理特性完全不同于图像,因此 不穷,特别是图像分割中有关纹理分析的方法引入 可以用来进行版面分析.这类算法近来得到了比较 之后,原有的分类方法无法体现版面分析领域新的 大的发展[10-15J,但目前基本上还处于研究阶段. 进展.因此,我们提出一种新的版面分析算法的分类 本文提出了一种基于形状的方法.首先本文提 方式,即分为基于形状的方法和基于纹理的方法两 出了一个基于多层次基元的版面分析模型,然后提 类.原有的分类方式可以看作是基于形状的方法的

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档