- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
复杂背景文件图像的字符提取
第 34 卷 第 3 期
2009 年 3 月
武 汉 大 学 学 报 ·信 息 科 学 版
Geo matics a nd Info r matio n Science of Wuha n U niver sit y
Vol . 34 No . 3
Ma rch 2009
文章编号 :167128860 (2009) 0320313204
文献标志码 : A
复杂背景文件图像的字符提取
伟1
陈庆虎1
凤1
鄢煜尘1
邓
袁
( 1 武汉大学电子信息学院 ,武汉市珞喻路 129 号 ,430079)
摘 要 :对含有多种噪声的复杂背景笔迹图像的字符提取进行了研究 。提取灰度共生矩阵的二次统计量惯性
矩特征来进行图像分割 ,采用 Ho ugh 变换方法来检测图像中的表格直线。笔迹图像字符提取步骤包括格线 检测、图像分割 、区域生长恢复字符笔画 、去格线和断笔修补 。实验证明了该方法的可靠性 。
关键词 :图像分割 ;惯性矩 ; 字符提取
中图法分类号 : T P391 ; P237 . 3
在文件图像分析中 ,许多文件带有各种形式
的污染 ,或者文件本身带有各种噪声而难以处理 。 文件图像的字符提取一般要去除文件纸张背景颜 色、格线、斑点噪声等信息 ,得到只含有字符笔画 和背景颜色的二值文件图像。对于彩色文件图
像 , 陈 又 新[ 1 ] 利 用 彩 色 图 像 游 程 邻 接 算 法
( CRA G) 分析图像中的彩色连通域 , 进行了复杂 彩色文本图像中字符的提取 。对于纸张上有各种 格线的文件图像 ,一般用 Ho ugh 算法或利用格线
与背景的颜色差异[ 2 ] 检测出格线并去除 ,再对断
裂的笔画进行修补[ 3 ] 。对带有噪声的模糊图像 , 刘成林[ 4 ] 、Fa n[ 5 ] 、L i u[ 6 ] 都进行了研究。但是实际 许多文件由于存储年代久远 ,或是文件为复印机
复印件 ,文件图像上会留下与文件字符颜色差别 不大的斑点噪声 ,这些斑点噪声在形态上也与字 符笔画中的点相似 ,用一般的方法难以去除 。本 文利用惯性矩特征来度量斑点噪声区域和字符笔 画区域的形态差异 ,并进行文件图像分割 。分割 后的文件图像通过区域生长恢复笔画、去除格线
等后期处理 ,就得到只含有字符笔画的二值图像 。
状 ,其边缘梯度方向在横向和纵向大体均匀 ;字符
笔画多为条形 ,其边缘梯度方向随笔画呈连续的 横向或纵向分布 ,这是由字符笔画具有明显的方 向性决定的 。 ②斑点噪声多在纸张空白处随机
散布 ,其密度在整个纸张的不同区域大致均匀 ;而
字符笔画在空间上的分布由汉字结构决定 ,是不 均匀的。 ③斑点噪声点一般比较模糊 ,边缘梯度
较小 ;而字符笔画与纸张的灰度对比较明显 ,边缘 梯度较大 。
根据这些差异 ,文件图像中的斑点是噪声还
是字符笔画的一点 ,可以由该点所在区域内图像 的形态来判断。若斑点周围是模糊的、无明显梯
度方向的区域 ,则该点是斑点噪声 ;若斑点周围有 明显的纹理走向 ,则斑点周围是字符笔画 ,该斑点
更可能是字符上的一点 。
1 . 2 基于惯性矩的图像分割
本文从图像的纹理特征出发来分析文件图像 形态与图像纹理惯性矩之间的对应关系。图像的
纹理从一般意义上来说是图像中灰度和颜色的变 化反复出现的纹理基元和它的排列规则。图像的
纹理分析方法大致分为统计方法和结构方法 。本 文用到的灰度共生矩阵分析方法[ 7 ] 是统计方法的
一种 ,它适用于细而无规则的纹理分析 。 灰度共生矩阵是描述在θ方向上 、相隔 d 像
元距离的一对像元 , 分别具有灰度值 i 和 j 的出 现概率 , 其元素可记为 p ( i , j | d , θ) , 当θ和 d 选
定时 , 也可记为 pij 。用数学表示则为 :
1 基于惯性矩的图像分割
1 . 1 文件图像背景噪声区域和字符笔画区域的
形态差异
如图 1 (a) 所示 ,文件与斑点噪声图像的形态 差异表现在以下几点 : ① 图像斑点噪声多为点
收稿日期 :2009201215 。
项目来源 :国家自然科学基金资助项目( 。
p ( i , j | d ,θ) = { x , y | f ( x , y) =
i , f ( x + D x , y + D y ) = j}
以 1°为步长检测图像中的格线 ,求出格线的大致
倾斜角度 ,精度为 1°; 第二次以前一次 Ho ugh 变 换检测出的格线倾斜角度的 ±0 . 5°为范围 , 以
0 . 02°为步长再次进行 Ho ugh 变换 , 精确地求出 图像中格线的倾斜角度 , 精度为 0 . 02°。经过两
( 1)
式中 , f ( x ,
文档评论(0)