一种新表格字符分割算法研究与实现.docVIP

  • 4
  • 0
  • 约4.47千字
  • 约 10页
  • 2018-08-13 发布于福建
  • 举报

一种新表格字符分割算法研究与实现.doc

一种新表格字符分割算法研究与实现

一种新的表格字符分割算法的研究与实现   摘要:针对表格图像中,表格线及可能存在的表格与字符粘连交叠而导致字符分割困难的问题,提出一种新的表格字符分割方法。该算法基于二阶高斯微分算子,对图像进行两方向的滤波,提取水平和垂直表格框线;确定表格字符区域的位置后,提出相交算法恢复粘连交叠区域,分割出字符区域;最后垂直投影算法分割出单个字符。实验结果表明,该算法稳定性高,效果好,与已有方法相比,提高了表格字符分割效率,具有较高的实际应用价值。   关键词:表格字符分割 框线去除 二阶高斯微分 相交算法 垂直投影   中图分类号:TP391.41 文献标识码:A 文章编号:1007-9416(2016)03-0000-00   Abstract: According to the form image, the problem of character segmentation difficult caused by form line and possible folds of form and conglutination, this paper puts forward a new form character segmentation method. The algorithm based on the second-order gaussian differential operator, the images are filtered by two direction , horizontal and vertical form frame line are extracted ; after determining the position of the form character area, this paper puts forward intersection algorithm recovery folds of form and conglutination, segment the character region ; At last, the vertical projection algorithm split out a single character. The experimental results show that the algorithm stability is high, the effect is good, compared with the methods available, effectively improve the efficiency of the form character segmentation and high practical value.   Keywords:Form character segmentation; line removal;second-order gaussian differential;intersection algorithm; vertical projection   在工业生产过程中,对于表格字符的识别,人工方法效率低且容易出错,因此,用机器代替人眼的表格字符自动识别系统是必然趋势。作为表格字符识别系统的关键环节,表格字符的分割已成为学术界和工业生产中研究的热点问题。   对于表格字符分割,表格线与字符粘连交叠是其主要问题,故而重点在于表格框线的去除和交叠区域的恢复[1]。此前,使用较多的是基于Hough变换的方法,或者是数学形态学的方法检测出直线[2],通过细化算法修补检测不完整和断裂的直线,这些算法多是基于数学方法在缺画字符上进行修补,算法较为复杂耗时[2]。本文提出一种新的表格字符分割算法。该算法将表格框线视为图像区域而非直线,利用高斯函数对图像进行两方向的滤波,提取两个方向的表格框线区域。此外,该算法将去除表格框线后的交叠区域的恢复融合在表格字符区域的分割过程中,提取出字符区域的位置,再将该位置与去除表格线前的二值图像相交,恢复出表格线与字符交叠区域[1]。   1 表格线的提取   根据表格线的方向特点,把表格线粗略分成水平和垂直框线两种[4]。通常可将二阶偏微分近似为差分表达式,以得到滤波模板。对于函数f(x,y),若用差分定义二阶偏微分[3],则有:   (式1)   (式2)   根据两个表达式,分别构造X方向和Y方向滤波模板如图1(a)和图1(b)所示。   (a) X方向模板 (b)Y方向模板   图1 滤波模板   先后用两种滤波模板遍历图像,字符尺寸与表格线长宽尺寸之间的差异性,避免了滤波提取表格框线时,字符所造成的干扰[1]。该算法具有对噪声的不敏感性,可检测

文档评论(0)

1亿VIP精品文档

相关文档