从人工智能角度看手写体汉字识别.docVIP

下载本文档

3
0
约4.27千字
约 6页
2017-06-09 发布于北京
举报
版权申诉

从人工智能角度看手写体汉字识别.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从人工智能角度看手写汉字识别姓名：王刚班级：计算机学院2011级创新班学号：111101003 邮箱：1935590190@ 摘要模式识别发展至今已有数年，计算机文字识别是模式识别的一个重要领域。文字识别发展至今，在印刷体识别、仅有数字和英文字符的识别方面已经有足够高的识别率。然后在手写的汉字识别方面识别率却一直不高，为了提高手写体汉字的识别率可以从人工智能的角度结合现有的识别算法来做一定改进，以提高汉字的识别率。关键词文字识别识别率人工智能引言计算机文字识别，俗称光学文字识别，其英文术语为Optical Character Recognition(缩写为OCR)，是指通过计算机技术及光学技术对印刷或书写的文字进行自动的识别，达到认知的目的，是实现文字高速自动录入的一项关键技术。到目前为止，汉字OCR是模式识别技术的一个分支，其主要目的是将汉字（手写体与印刷体）自动读入计算机。而手写文字识别技术，是指通过计算机来识别手写文字的一种识别文字的技术。近年来脱机手写体汉字的识别已经有了很大的发展。但是由于受手写体汉字书写风格因人而异等因素的影响,使得脱机手写体汉字识别难以接近人类识别汉字的准确性、灵活性和容错性。现有的算法各有各的优势，但是多数算法集中于单个汉字的识别，对于全局的掌控较弱。从人工智能的角度出发，研究人们识别手写体汉字时候的思路，然后就这种思路来改进现有的算法，提高手写体汉字的识别率是很好的一个方向。一、OCR技术的发展 OCR概念的诞生，要早于计算机的问世。早期的OCR多以文字的识别方法研究为主，识别的文字当时仅为0-9这几个数字。后来随着计算机的出现和发展，OCR研究才在全球范围内广泛研究和发展。OCR发展至今，可分为三个阶段： 1、第一代OCR产品出现于60年代初期，在此期间，IBM公司、NCR等公司分别研制出了自己的OCR软件，最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字，英文字母及部分符号，而且都是指定的字体。60年代末，日立公司和富士通公司也研制出了各自的OCR产品。 2、第二代OCR系统是基于手写体字符的识别，前期只限于手写体数字，从时间上来看，是60年代中期到70年代初期。 1965年IBM公司研发出IBM1287，并在纽约世界博览会上展出，开始能识别印刷体数字、英文字母及部分简单的符号。第一个实现信函自动分拣系统的是东芝公司，两年后NEC公司也推出了这样的系统，到1974年，分拣率达到92%-93%。 3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集的识别，例如汉字的识别。1966年，IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字，到了1977年，东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。我国在OCR的研究方面起步相对较晚，70年代开始进行数字、英文及符号的识别研究，70年代末开始进行汉字的研究，到1986年，汉字的识别进入了一个具有成果性的阶段，不少单位推出了中文OCR产品。到目前为止，印刷体汉字的识别率达到了98%以上，手写体的识别率也在70%以上，并且可对多种字体、不同字号混排识别，国家“863”计划对该方面的研究给予了很大的资助。目前，我国正在争取实现OCR产品识别精度更高、识别速度更快，能同时支持单机和网络操作，使得使用更方便，应用更广泛，达到不同用户的使用要求。二、汉字的识别方法对于文字的识别，从文字类型上划分，通常分为印刷体文字的识别和手写体文字的识别；从识别的方式划分，通常分为在线识别和脱机识别。由于印刷体与手写体的文字特征差异较大，所以在软件识别上，其处理方法是不同的。下图描述了文字识别系统的组成: 图1 文字识别系统组成图字识别的特征提取通常有两类特征，一是将汉字图像进行统计计算后得到的数量特征，比如将图像向多个方向投影，以投影后的像素密度作为特征；二是将汉字的笔画分解，根据对汉字结构的认识提取有效的特征点，再编码成数字特征。在提取特征以后，每个字就成了一个由特征向量代表的样本，识别一个字就是要在所有可能的字中判断当前的样本是哪个字，属多类分类问题。分类器的建立除了要利用样本训练，还需要结合对文字结构的认识（比如旋转和尺度不变性）才能得到更好的识别效果。与语音识别类似，OCR在单字识别后往往还需要根据语言模型进行上下文匹配等后处理，才能达到更理想的效果。而在单字识别前，对扫描稿件的版面分析、字符分隔等是重要的预处理步骤。与离线的手写文稿识别相比，联机的手写文字识别能有效地提取和利用笔画信息，因而可以取得更好的识别效果，目前已经发展为很多手机和掌上计算机的基本配置。这两种提取特征的方法衍生出了许多的算法，并且它们发展至今已经有较好的识字率