- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多层次可信度指导下的自底向上的版面分析算法.pdf
第16卷第2期 模式识别与人工智能 Vd.16No.2
2003年6月 PR&AI‘ June2003
多层次可信度指导下的自底向上的版面分析算法
陈 明 丁晓青 吴佑寿
(清华大学电子工程系北京 100084)
摘要版面分析是文档数字化中的关键问题.本文首先将版面分析算法分为两类:基于形状的和基于纹理的,然
后提出了一个基于多层次基元的版面分析模型.根据此模型,版面分析问题被简化为计算每个层次上的最佳基元
划分.我们提出了连接强度和多层次可信度的概念并描述了~个基于多层次可信度的自底向上的算法.此算法具
有很强的适应性,可以处理各种类型的样张.实验表明了算法的有效性.
关键词版面分析,基元,多层次可信度,连接强度
中图法分类号TP391.4
引 言 开始,一个页面首先分割成几个大的区域,然后每个
区域再递归分割成子区域【2.3J.自底向上的方法从
像索点开始,将相邻的部分根据局部特征的相似性
版面分析在文档图像分析(Document
Image
合并成为一个小区域,小区域再连续地合并为大区
Analysis)领域受到越来越多的重视.在将现有纸介
域[4,5J.另外还有将两种方法结合起来的混合
质的信息数字化的过程中,OCR技术已相当成熟,
法[6.7|,以及主要依据背景特征进行分割的基于背
可以迅速有效地获取文本.但是一方面复杂的版面
景的方法等[8,9J.这类方法的主要缺点是很大程度
格式导致oCR无法直接运用,另一方面用户可能希
地依赖于特殊的规则和经验性的阈值,对日益复杂
望同时保留原始的版面信息.因此,作为OCR技术
的版面格式的适应性较差.
和版面复原的基础,版面分析成为一个关键的问题.
基于纹理的方法主要思路是将图像看作是一些
一般将版面分析算法分为如下几类:自顶向下、
具有不同纹理的区域的组合.文本具有一系列相同
自底向上、混合法【1|.这种分类方法在很长一段时间
方向的文本行,行中具有一系列大小基本一致的字
内被多数研究人员所认可.但近年来,新的算法层出
符.这种相对一致的纹理特性完全不同于图像,因此
不穷,特别是图像分割中有关纹理分析的方法引入
可以用来进行版面分析.这类算法近来得到了比较
之后,原有的分类方法无法体现版面分析领域新的
大的发展[10-15J,但目前基本上还处于研究阶段.
进展.因此,我们提出一种新的版面分析算法的分类
本文提出了一种基于形状的方法.首先本文提
方式,即分为基于形状的方法和基于纹理的方法两
出了一个基于多层次基元的版面分析模型,然后提
类.原有的分类方式可以看作是基于形状的方法的
原创力文档


文档评论(0)