手写汉字识别系统的研究与应用.docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手写汉字识别系统的研究与应用   摘 要:本文在研究汉字识别理论的基础上,介绍了手写汉字识别系统研究的意义及其在实际中应用,并对当前手写汉字识别的现状及存在的问题进行了分析,提出了限定性脱机手写汉字识别的研究方向。   关键词:限定性;脱机手写汉字;模式识别;人工神经网络   中图分类号:TP391 文献标识码:A   一、引言   以计算机为基础的现代信息处理技术已成为信息社会的重要标志,随着信息时代的到来,如何用计算机对汉语信息进行处理已发展成为一门综合性的交叉学科――中文信息处理。汉字信息的计算机处理技术对我国乃至世界信息事业的发展具有重要的意义,在以微电子与计算机技术为先导的信息化浪潮中,成为我国高新技术的一个热点。   汉字信息的计算机处理技术包括汉字信息的输入、处理和输出。汉字是一种象形文字,它不像西方拼音文字那样可以直接方便地输入到计算机中,虽然现在已有数百种的汉字输入编码方案,但它们不是速度慢就是过于复杂不便学习,难以适应高速发展的中文信息处理技术的需要。汉字输入问题成为汉字信息处理的“瓶颈”,影响了计算机在我国的推广使用,成为我国乃至世界信息化进程的障碍。研究高速自动的汉字输入方法是中文信息处理技术领域的一个重大课题。汉字自动录入的关键是汉字的计算机自动识别问题。   二、汉字识别及其研究的领域   汉字识别是指让计算机对经由某些特定输入设备得到的汉字图象进行自动识别,从而得到相应的计算机内码表示的汉字文本的一种技术。它是智能计算机接口的一个重要组成部分,也是汉字高速、自动输入计算机的重要手段。汉字识别系统有时也称为“光学字符阅读机”,简记为OCR(Optical Character Reader)。   形象地来讲,汉字识别就是在汉字图象(或笔画序列)与汉字的计算机内码之间建立一种关系,使得计算机能够自动地将汉字图象转换为汉字内码。设G为汉字图象的集合,C为汉字集合,则汉字识别问题可以看作一个映射(如公示一所示):   公式一: f:G → C 或 c = f ( g )   其中g ∈ G为一个汉字图象,c ∈ C为其所对应的汉字内码。   但在现有的识别系统中,这种映射还不是一一对应的关系。其原因在于就现有的机器识别技术,还不能作到对识别结果的完全确定,存在误识和拒识问题。   为了评价一个识别系统的性能,通常引入识别率、误识率、拒识率和识别结果可信度的概念。   识别率指汉字识别系统能够正确识别的字数与待识别的总字数的比率;   误识率指汉字识别系统错误识别的字数与待识别的总字数的比率;   拒识率指汉字识别系统不能够识别的字数与待识别的总字数的比率;   识别结果的可信度是指识别器输出汉字C时的可信程度。若被识别器识别汉字C的总字数是Mc,对应Mc中输入汉字C的个数为Nc,则C的可信度Bc用公式二表示。   公式二: Bc=(Nc/Mc)×100%   为了减小研究难度,集中研究精力,人们对汉字识别研究领域进行细致的划分。依照待识别汉字的形成方式,汉字识别可分为印刷体汉字识别和手写体汉字识别两大类。手写体汉字识别又可根据识别的实时性分为联机手写体汉字识别和脱机手写体汉字识别。对脱机手写体汉字识别又分为特定人非限定性脱机手写体汉字识别、非特定人限定性脱机手写体汉字识别和非特定人随意性脱机手写体汉字识别。   联机识别指手写体识别时,用光电书写板边输入边识别,各笔迹点的坐标被顺序地输入计算机内,原始信号为一维序列;而脱机识别研究的对象是书写在纸上经由扫描仪输入的点阵字符,原始信号为二维图象。因此从识别的角度看,联机手写识别要比脱机手写识别简单,因为在联机识别中容易抽取笔划和笔顺信息。   所谓“限定性”是指手写印刷体识别时,要求人们工整书写,例如书写时要求横平竖直;而“非限定性”是指人们在实际生活中那样可以连笔地自由书写。   目前印刷体汉字识别和联机手写体汉字识别己逐步实用化,而脱机手写体汉字识别,因其自身的复杂性被视为汉字识别领域中“最难征服的领域”,成为国内外学者研究的热点。本文研究的对象是脱机手写体识别中的非特定人限定性脱机手写体汉字识别(以下简称脱机手写体汉字识别)。   汉字识别在学科上属于模式识别中的文字识别分支,是模式识别领域中的一个重要研究课题,汉字识别的研究涉及人工智能、模糊数学、人工神经网络、图象识别、计算机科学、心理学、语言学等学科。   三、手写体汉字识别研究的理论价值及应用前景   手写体汉字识别研究的理论价值是多方面的。   (一)手写体汉字识别的理论研究是为了认识高难度模式识别的一般规律,发展机器自动识别技术。传统的模式识别理论和方法在手写体汉字识别中有很大的局限性,手写体汉字识别的研究有助于发展新的模式识别理论

文档评论(0)

fa159yd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档