离线阿拉伯字符识别系统.pdfVIP

  1. 1、本文档共122页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要 摘 要 模式识别是研究如何在数据中对模式进行分类。它可以定义为经由 不相关的细节背景提取出数据特征对输入数据进行分类的过程。 近年来,依靠计算机进行数据处理工作的不断增加,字符识别作为 模式识别中的 一个领域得到极大的关注。由于信息处理量的增长,所以 J决速处理文档的需求使这个领域比以往更加重要。例如,邮局需要快速 的自动识别系统来完成需要快速分类大量信件的工作。 最普通的字符识别是光学字符识别 O〔CR)。光学字符识别是在手写 或印刷结束之后进行的,和在线识别相比不要求识别的同步性。手写和 印刷字符都可以被识别,但是识别效果直接依赖于输入文档的质量。 阿拉伯字符识别包括了印刷体和手写体,是光学字符识别研究领域 一项很具有挑战性的工作。在这个领域中己经投入了很多精力,但是目 前还没得到令人满意的结果。 阿拉伯字符识别对于阿拉伯国家和非阿拉伯国家都有着重要的意 义。阿拉伯人把它看作为是一个能够把印刷材料转换为电子媒体的很有 价值的工具,而非阿拉伯人把它看作为翻译古老的阿拉伯文字手稿的中 间媒介。 阿拉伯字符识别的主要难点是手稿草书问题。因为任何切割错误将 导致识别工作中错误率的增加,所以切割工作是一个很重要的工作同时 也是研究工作中的难点。此外,切割字符的工作主要依赖预处理,即图 像获得和图像处理工作。也就是说,一个不好的或者低质量的预处理工 作将影响切割的正确性。因此,在本篇论文中提出了一个新的字符切割 算法。算法依靠垂直投影直方图和特定的规则。这些规则依靠每一个阿 拉伯字符的结构特征。切割算法得到的精确度达到了98.60%. 切割算法的第一步是获得在300dpi分辨率下扫描不同的阿拉伯文字 文档样本。不同的样本代表着不同阿拉伯文字的类型和大小。算法的输 入是一个被强制转换为bmp图片类型的灰度图像。该图像文档被转换为 。(白)-1(黑)2值矩阵。矩阵中的0代表背景,1代表文本中的字 符。应用统计平滑算法来减少这个 2值图像的噪声。这个算法能够消除 小区域和填补的小孔。 在我们的算法中,用三个层次完成切割任务:基线、词和子词。一 般来洗,应用水平投影轮廓的概念检测文本中相继行之间的间隙,应用 垂直投影轮廓来分割词。 阿拉伯字符的连通性是识别任何阿拉伯字符的主要困难。如果分类 器完全依靠分割算法的输出,连通所带来的错误将直接导致系统识别错 误增加。所以分割算法应该有效和准确的把词分割为字符。此外,一些 HarbinInstituteof}Technotog) DissertationoftheDoctoralDegreeinEngineering 阿拉伯字符笔画之间还有交叠,例如,-w,J0 因此 只用垂直投影扫 描而不用任何其他的方法或者结构规则来区分这些字符是不可能的。在 早期的阿拉伯字符识别系统的理论工作中,假设字符是事先分割好的。 基线在阿拉伯文字的书写中有着很重要的地位,大量的_L作已经证 明连通的阿拉伯字符经常出现在基线位置上。即多数阿拉伯字符与其他 字符的连接都出现在基线的位置。通常用来检测基线的方法是水平轮廓 投影。通过文本的水平直方图中检测峰值能够找到基线,算法中为每一 个子词检测基线。 在切割字符之后,采用了2个技术:14MM模型 (隐马尔可夫)和 神经网络模型。从图像中提取的特征体现了字符或词在经过滤波后的基 本特征,这些属性使得一个字符/词的一种字体不同于同 一个字符/词的 另一种字体。同时保存了使一个字符/词区别于另一种字符/词的性质。 在本部分中己经论述了结构特征的思想。 应用细化算法得到一幅字符图像的框架是山很多连接组成的,每个 连接刀始和结束都用一个特征点来描述,这些连接把词的框架转换一个 特征向量的序列。 HMM识别方法中,提取结构特征并应用矢量量化转化为观察序列 作为每一个词的特征向量。HMM由一些基木单元构成。这些单元包括 28个基本字母,4个附加的字符(i_s.,i, ‘,;,,)以及 19个2个 字毋的组合。这些组合由两个不能由任何的特征点分开的字母组成,因 此它是不可能把主要笔画分解为一个连接。19个组合包括V, ‘, ‘, Lfa,v,,,y,。,。,匕,y,州,W,沪,护,训,护, 夕,LS和 沪. 每一个基本单元代表至少 一个字母并且被构建为一个从左到右的 H

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档