- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Radon变换图像倾斜校正改进算法
一种基于Radon变换的文档图像倾斜校正改进算法
摘 要:通过光学字符识别技术可将纸质文档内容快速转换为可编辑电子文档,该技术识别的准确率与扫描文档图像质量的好坏紧密相关。对纸质文档扫描或拍照时不可避免的会产生文档图像倾斜的现象,为了保证光学字符识别技术识别的准确度,对文档图像进行倾斜校正是非常有必要的。文中针对传统文档图像倾斜校正算法对文档图像中存在图片区域干扰时校正精度低的问题,提出了一种基于Radon变换的改进算法。该算法首先将预处理后的文档图像进行分块,并利用Radon变换计算各子块图像的倾斜角所对应的Radon曲线;其次,结合文本行子块与图片子块的Radon曲线的周期性差异,再利用傅里叶变换求功率谱密度将图片子块检测出来并排除;最后,利用Radon对已排除图片区域干扰的文档图像进行倾斜角检测并校正。实验结果表明,该改进算法能将倾斜文档图像中的绝大多数图片干扰排除,从而使倾斜校正精度得到提高。
关键词:文档图像处理;倾斜校正;傅里叶变换;Radon变换
中图分类号:TP391 文献标识码:A 文章编号:2095-1302(2016)07-00-04
0 引 言
文档图像处理通过光学字符识别技术(Optical Character Recognition,OCR)对文档图像进行相应处理,以达到对文档图像中的文字、图片和图表等信息进行分析和识别的目的。然而,在利用数码相机或扫描仪等图像获取设备将纸质文档转换为数字图像的过程中,因扫描设备机械缺陷或人为因素不可避免的会使文档图像发生倾斜。为提高OCR技术识别的准确率,对倾斜的文档图像进行校正很有必要。由于文档图像版面结构的复杂性,建立一种通用的倾斜文档图像校正算法非常困难。如何高效、准确地检测出文档图像的倾斜角是成功实现倾斜校正的关键。当前,科研人员已开发了多种不同的文档倾斜校正算法,包括基于Hough变换的校正算法[1-3]、基于Fourier变换的校正法[4]、基于特征点最小距离拟合的文档图像倾斜检测[5]、基于交叉关联校正算法[6]、基于投影的文档图像倾斜校正方法[7]以及k-最近邻簇校正法[8,9]等。其中,Hough变换校正算法的思想是将图像空间变换到参数空间,使得图像空间中的直线被映射到参数空间的一点,而图像空间中的一点则对应参数空间的一条正弦曲线;图像空间中的任意两点所对应的正弦曲线在参数空间中相交于一点,通过上述两点所在直线的点对应的正弦曲线在参数空间中都相交于该交点。利用上述特性可将图像空间中直线检测问题转换为求参数空间中局部最大值的问题。基于Fourier变换的校正算法利用文档页面倾斜角与Fourier空间密度最大值的对应特性实现检测计算,由于对文档图像中的全部像素进行计算,运算量非常大,因此目前使用较少。交叉关联算法是基于等距离竖直(水平)平行线上像素点相关性设计的,该算法先以平行线上像素点来建立相关矩阵,然后对相关矩阵在竖直方向上进行投影,投影图的全局最大值与文档图像的倾斜角对应;由于相关矩阵的计算量非常大,且要确定全局最大值,某些情况下还需回溯计算相关矩阵和投影,进一步增加了计算量。k-最近邻簇校正法通过计算所有连通区域的中心点的k个最近邻确定出每对近邻点的矢量方向,并统计生成直方图,直方图的峰值就对应于整个文档图像的倾角。通过实验分析发现,利用以上算法对纯文本行图像进行处理时,算法检测精度较高,当文档中存在图片区域时,图片区域的干扰导致算法精度降低。此外,从算法设计原理可以看出,上述算法都存在计算量大的问题。
针对传统倾斜文档图像校正算法处理包含图片区域的文档图像时检测精度低的问题,提出了一种基于Radon变换的改进算法,并通过实验验证了该算法对图片区域干扰的排除效果以及算法检测精度。
1 算法原理
1.1 基于Radon变换的传统校正算法
Radon变换利用投影积分的思想,沿着某条特定直线求积分,并将积分值投影到Radon变换平面上,该积分结果又被称为Radon曲线,由该直线与图像坐标系原点的距离和倾斜角共同确定,Radon变换示意图如图1所示。文档图像沿θ方向的Radon曲线可表示为:
其中,f(x,y)为初始文档图像,g(s,θ)为Radon曲线。
基于Radon变换原理实现倾斜文档校正的一般思路如下:
(1)图像预处理:通过图像二值化、边缘检测等手段提取同一行文本的边框;
(2)倾斜角检测:对步骤(1)中的结果进行Radon变换,求出文档图像对应的倾斜角;
(3)倾斜校正:将原始文档旋转相应角度,完成倾斜校正。然而,同其它倾斜校正算法类似,此算法对文档中包含大量纯文本行时检测精度较高,当文档图像中存在图片区域时,Radon曲线将由文本行和图片区域像素点积分
您可能关注的文档
最近下载
- 福州市时代中学历史七年级上册期末试卷.doc VIP
- DLT 1937-2018《垃圾发电厂监控系统技术规范》.pdf VIP
- 你必须了解的6种断路器的可调跳闸设置.docx VIP
- 夫妻离婚协议书模板完整版优秀.docx VIP
- 电动玻璃升降器的分析与设计.doc VIP
- 三年级字母英语练习题.doc VIP
- IT运维方案完整版.doc VIP
- 英语文学导论 案例与方法 An Introduction to Literature in English Cases and Approaches知到课后答案智慧树章节测试答案2025年春温州大学.docx VIP
- 英语文学导论 案例与方法 An Introduction to Literature in English Cases and Approaches知到智慧树期末考试答案题库2025年温州大学.docx VIP
- 人工智能与小学语文教学融合的跨学科课程开发策略研究教学研究课题报告.docx
文档评论(0)