字符预处理及分割算法实现 译文.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
字符预处理及分割算法实现 译文

印度六种流行文字的手写数字的识别 计算机视觉和模式识别单位,印度统计研究所 摘要 印度是一个多语言,多文字的国家,但是关于印度语言里手写文字识别的著作却并不多。 在这篇论文里,我推出一种改良型方格分类法,这个分类法是基于不成直线(off-line的翻译不确定)的六种印度流行的手写数字识别的图解。在这里,我们选择梵文字母,孟加拉语,泰卢固语,奥里雅语,埃纳德语和泰米尔语文字来举例说明。这个分类法中用到的特征是从数字的方向性讯息得到。用一个边框来统计特征,边框被分隔为几个板块,数字的特征汇总在各个板块中。然后用高斯滤波器对其进行采样,从中得到的特征用改良型方格分类法进行识别。在这里,我们有两套特征展示法。在推出的系统中,我们用64维特征法来快速识别,用400维特征法来实现高精度识别。我们用5倍反向验证技术来估计结果。 从梵文字母,孟加拉语,泰卢固语,奥里雅语,埃纳德语和泰米尔语文字中,我们分别得到99.56%, 98.99%, 99.37%, 98.40%, 98.71% 和 98.51% 的准确率。孟加拉语本文的其余部分安排的达罗毗荼—的官方语言,除了印度之外,它也是新加坡,马来西亚,斯里兰卡等国家的官方语言。在本论中考虑到为了更加深刻地理解文字六种文字的形状,在表一种列出了一系列的手写文字形状。 六种流行文字的手写数字的识别 印度手写文字字符识别比较有挑战性的部分是相似形状组成的字符的之间的区别。有些时候区别很小的部分就是两个字符或数字之间的区别标志。这些小的显著部位增加了识别的复杂性和降低识别的准确性。因为个人不同的写作风格,相同的标号会采用不同的形状,相反地,两个或者多个不同文字符号有时会是相似的形状。这些因素也增加了手写字符识别的复杂性,为了更好地理解相似形状字符的理念,我们提供下图所示的一些例子。泰卢固语文字第一部分的字符看起来像零,但是,在期中的第一个字符是泰卢固语中的“一”而第二个字符是泰卢固语的“零”。 Fig.1. Examples of some similar shaped 3.数据收集与预处理 实验数据是从各行各业不同的人中采集的 ,不同文字的数据是从那些将这些文字作为各自地区的官方语言的印第安州中收集的。例如,卡纳达语数据是从印度卡纳塔克邦收集的,是因为卡纳达语是卡纳达克邦的官方语言。一些数字也是印度邮政文件中收集的。 目前我们正在开发关于梵文,孟加拉,奥里雅语,卡纳达语,泰米尔语与泰卢固语,以及过一段时间后我们会在市面上公开我们研究这些数据集的目的。目前我们认为22546,14650,2220,5638,4820, 2690 分别梵文,孟加拉语,泰卢固语,奥里亚语,卡纳达语,泰米尔语的数字的实验样本。在梵文的数字实验中,我们使用了提到过的相同的数据集。平面扫描仪已被用于数字化。 数字化图像是主要以灰色色调以300像素和TIF格式存储的。我们使用大津法则来获得二进制的图像。 4.特征提取 在这里我们计算出了两套用于识别目的特征,我们用64维特的特征向量用于高速识别 和400维特特征向量用于高精度识别。对于特征提取我们正常化为二进制图像分成72X72像素,而这个尺寸是通过实验得到的。下面对特征提取技术进行了描述。 64维特征提取 给定一个二进制图像,我们首先通过以下算法找到图像的轮廓点。对于图像的目标点,考虑一个3X3被对象点包围着的对象点,如果四个相邻点的任一个作为背景点然后作为对象点然后该对象点视为投影片。否则它就是一个非轮廓点。 图二(a) 在点P和它的四个邻边都由”X”表示一个点P用于它的八个相邻点的方向代码所示 64维特征提取的例子(a)泰卢固语数词“五”(b)标准化图像的包围盒(c)轮廓提取的图像分割成7×7块和一个放大版的图像显示轮廓点逐块链码直方图400维特征提取用于维特征 萃取步骤1二进制图象被转换成灰度级图像施加一个2×2意味着过滤的5。步骤2:该灰度图像归一化,使得平均灰度值变为零与最大值步骤3:归一化的图像,然后分割成9x9的 块。 ;梯度(??(x, y))且 其中?u ??g(x ?1, y ?1) ??g(x, y)?v??g(x?1, y)?g(x, y?1) ,g(x,y)是点(x,y)的灰色区域 步骤5:直方图的16个量化方向的值被计算在每一个9x9的块中 步骤6:这些9x9被高斯滤波器采样成5x5的块,因此,我们得到5x5x16=400维 特征 其中的X输入字符特征向量M是样本的均值向量; T i ??ith特征向量;k是这里用到的特征值的个数;n是特征尺寸;?2是方差的初始估值;N是学习样本的数目;No是?的confidence的翻译不确定) 常量。本次实验中,基于64维结构下,No在梵文字母、孟加拉语9N, 7N/3, 7N/3, 4

文档评论(0)

a888118a + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档