- 1、本文档共122页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
摘 要
模式识别是研究如何在数据中对模式进行分类。它可以定义为经由
不相关的细节背景提取出数据特征对输入数据进行分类的过程。
近年来,依靠计算机进行数据处理工作的不断增加,字符识别作为
模式识别中的 一个领域得到极大的关注。由于信息处理量的增长,所以
J决速处理文档的需求使这个领域比以往更加重要。例如,邮局需要快速
的自动识别系统来完成需要快速分类大量信件的工作。
最普通的字符识别是光学字符识别 O〔CR)。光学字符识别是在手写
或印刷结束之后进行的,和在线识别相比不要求识别的同步性。手写和
印刷字符都可以被识别,但是识别效果直接依赖于输入文档的质量。
阿拉伯字符识别包括了印刷体和手写体,是光学字符识别研究领域
一项很具有挑战性的工作。在这个领域中己经投入了很多精力,但是目
前还没得到令人满意的结果。
阿拉伯字符识别对于阿拉伯国家和非阿拉伯国家都有着重要的意
义。阿拉伯人把它看作为是一个能够把印刷材料转换为电子媒体的很有
价值的工具,而非阿拉伯人把它看作为翻译古老的阿拉伯文字手稿的中
间媒介。
阿拉伯字符识别的主要难点是手稿草书问题。因为任何切割错误将
导致识别工作中错误率的增加,所以切割工作是一个很重要的工作同时
也是研究工作中的难点。此外,切割字符的工作主要依赖预处理,即图
像获得和图像处理工作。也就是说,一个不好的或者低质量的预处理工
作将影响切割的正确性。因此,在本篇论文中提出了一个新的字符切割
算法。算法依靠垂直投影直方图和特定的规则。这些规则依靠每一个阿
拉伯字符的结构特征。切割算法得到的精确度达到了98.60%.
切割算法的第一步是获得在300dpi分辨率下扫描不同的阿拉伯文字
文档样本。不同的样本代表着不同阿拉伯文字的类型和大小。算法的输
入是一个被强制转换为bmp图片类型的灰度图像。该图像文档被转换为
。(白)-1(黑)2值矩阵。矩阵中的0代表背景,1代表文本中的字
符。应用统计平滑算法来减少这个 2值图像的噪声。这个算法能够消除
小区域和填补的小孔。
在我们的算法中,用三个层次完成切割任务:基线、词和子词。一
般来洗,应用水平投影轮廓的概念检测文本中相继行之间的间隙,应用
垂直投影轮廓来分割词。
阿拉伯字符的连通性是识别任何阿拉伯字符的主要困难。如果分类
器完全依靠分割算法的输出,连通所带来的错误将直接导致系统识别错
误增加。所以分割算法应该有效和准确的把词分割为字符。此外,一些
HarbinInstituteof}Technotog) DissertationoftheDoctoralDegreeinEngineering
阿拉伯字符笔画之间还有交叠,例如,-w,J0 因此 只用垂直投影扫
描而不用任何其他的方法或者结构规则来区分这些字符是不可能的。在
早期的阿拉伯字符识别系统的理论工作中,假设字符是事先分割好的。
基线在阿拉伯文字的书写中有着很重要的地位,大量的_L作已经证
明连通的阿拉伯字符经常出现在基线位置上。即多数阿拉伯字符与其他
字符的连接都出现在基线的位置。通常用来检测基线的方法是水平轮廓
投影。通过文本的水平直方图中检测峰值能够找到基线,算法中为每一
个子词检测基线。
在切割字符之后,采用了2个技术:14MM模型 (隐马尔可夫)和
神经网络模型。从图像中提取的特征体现了字符或词在经过滤波后的基
本特征,这些属性使得一个字符/词的一种字体不同于同 一个字符/词的
另一种字体。同时保存了使一个字符/词区别于另一种字符/词的性质。
在本部分中己经论述了结构特征的思想。
应用细化算法得到一幅字符图像的框架是山很多连接组成的,每个
连接刀始和结束都用一个特征点来描述,这些连接把词的框架转换一个
特征向量的序列。
HMM识别方法中,提取结构特征并应用矢量量化转化为观察序列
作为每一个词的特征向量。HMM由一些基木单元构成。这些单元包括
28个基本字母,4个附加的字符(i_s.,i, ‘,;,,)以及 19个2个
字毋的组合。这些组合由两个不能由任何的特征点分开的字母组成,因
此它是不可能把主要笔画分解为一个连接。19个组合包括V, ‘, ‘,
Lfa,v,,,y,。,。,匕,y,州,W,沪,护,训,护,
夕,LS和 沪.
每一个基本单元代表至少 一个字母并且被构建为一个从左到右的
H
文档评论(0)