网站大量收购独家精品文档,联系QQ:2885784924

利用顶点链编码探测表格的斜率.pdfVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
利用顶点链编码探测表格的斜率.pdf

第3期 华东师范大学学报(自然科学版) NO.3 2004年9月 JournalofEastChinaNormalUniversity(NaturalScience) Sep.2004 文章编号:i000—5641(2004)03—0054—05 利用顶点链编码探测表格的斜率 张圣希,张 薇,李国强,顾国庆 (华东师范大学 计算机系,上海 200062) 摘要: 根据表格图像中表格的框线或悬线具有最长的边界,以及边界标定自动机能获得区域 边界的优点,提出了一种新的表格图像文件倾斜矫正的方法.该方法使用简便,而且在大噪声的 背景下也能使用. 关键词: 图像处理;模式识别;表格;Bribiesca链编码 中图分类号:TP311.52 文献标识码:A O 引 言 表格文本分析识别系统一般由表格图像处理,表格分析,表格栏字符块提取,汉字串、数 英串判别,汉字识别,数英识别和表格生成等模块组成.而表格图像处理则包含系统 自动进 行和交互式进行两部分.前者包括表格的倾斜 自动矫正等,后者包括表格图像 自动拼接、擦 除污点和增删线条等编辑功能.由于在用扫描仪和数字照相机获得文字或表格文档时,倾斜 总是难免的,因此表格和文字图像的倾斜探测和矫正是表格识别和图像分析的第一步,也是 表格分析及以后各项识别工作准确性的保证.在不受噪声污染的理想情况,表格图像倾斜度 的探测和矫正,不是一个困难的问题,至今已有很多论文提出了各种方案,如投影法、扫描线 法以及一些模式识别中经典的方法等.但是,原始文件本身的质量和图像的数字化的过程都 不可避免地会引进各种形式的噪声.在噪声污染下,图像倾斜度的探测和矫正至今还没有很 好地解决. 本文根据表格图像中,表格的框线和悬线具有最长的边界,以及边界标定 自动机能获得 区域边界的优点,提出了一种新的表格图像文件倾斜矫正的方法.该方法使用简便,而且在 大噪声的背景下也能使用. 1 表格框线的探测 数字化的表格图像中的物体有框线和悬线,文字以及数字化过程中产生的斑点.表格图 像的特征是有框线和悬线.我们知道,表格中框线总是横平竖直,悬线总是水平放置的,因此 框线和悬线的方向就是表格文件的方向.因此表格倾斜矫正中,自动搜索框线和悬线是成功 地进行表格图像倾斜探测和矫正的关键.把框线和悬线与文字和斑点做比较,发现框线和悬 线的边界总是比文字和斑点的边界长.因此通过比较边界的长度就可以搜索框线和悬线,从 而确定图像的倾斜角度. 在OCR(光学字符识别)领域,对文件进行识别之前必须先对原有图像做二值化处理, 收稿 日期:2003—06 作者简介:张圣希 (1980一),男,硕士生 第3期 张圣希,等:利用顶点链编码探测表格的斜率 55 目的是勾勒出字符的骨架,从而提取文件中的信息.已经发展了利用边界标定自动机从二值 化图像获得区域边界的方法.用边界标定 自动机得到是边界的顶点链编码,而且链编码的长 度就是边界的长度.有鉴于此,我们形成了搜索框线和悬线的一个方法.对图像中的所有区 域进行完整的扫描,记录所有区域的外边界,以区域边界的长度对区域排序,边界最长的区 域就是框线或悬线. 假定已经用简单的阈值方法,从表格的灰度图像得到了表格的二值图像.可以用边界标 定自动机获得表格图像中物体的顶点链编码.关于顶点链编码的基本原理,文献[1~2]中有 详细的介绍,关于边界标定自动机的理论可以参阅文献[3]. 在此假定用红色像素标定边界. 设计扫描区域外边界的算法为: (1)在扫描图像的一行之前: ① 设置布尔量state并设初值为0.state一0时允许标定边界,state一1时不允许标定 边界. ② 设置标志量prep,它表示每次横向扫描时走过的前一点的颜色.prep一0时代表黑 色,prep=1时代表红色(标定色),prep一2代表白色. (2)在扫描一行的过程中,如果当前点是红色且前一点为白色,则不允许标定边界,即 state~1.如果当前点为白色且前一点是红色,则允许标定边界,即state~0. (3)在扫描一行的

文档评论(0)

jackzjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档