手写汉字识别原理.docVIP

下载本文档

276
0
约6.18千字
约 7页
2018-01-14 发布于江西
举报
版权申诉

手写汉字识别原理.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手写汉字识别原理

手写汉字识别主要介绍了非特定人脱机手写体汉字识别的基本步骤和技术难点，以及当前的研究热点和成果。一、汉字识别概述字已有数千年的历史，也是世界上使用人数最多的文字，对于中华民族灿烂文化的形成和发展有着不可磨灭的功勋，并将继续发挥重要的、其它文字形式难以取代的作用。然而，汉字是非字母化、非拼音化的文字，在当今高度信息化的社会里，如何快速高效地将汉字输入计算机，已成为影响人机接口效率的一个重要瓶颈，也关系到计算机能否真正在我国得到普及应用。围绕这一问题，人们提出了各种解决方案。目前，汉字输入主要分为人工键盘输入和机器自动识别输入两种。人工键盘输入是指用手工击键方式按照一定的规律把汉字输入到计算机，目前已有数百种键入方案。但是，与拼音文字的打字机不同，人们需要经过一定时间的学习训练才能掌握某种键入方法，更为严重的是：对于大量已有的文档资料，采用人工键入方法将要花费大量的人力和时间。为此，机器自动识别输入就成为了必须研究的课题。自动识别输入分为语音识别和字符识别两种。汉字识别是模式识别的一个重要分支，也是文字识别领域最为困难的问题，它涉及模式识别、图象处理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科，是一门综合性技术，在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域，都有着重要的实用价值和理论意义。汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类，后者又可分为联机（on－line）手写汉字识别和脱机（off－line）手写汉字识别，如图1所示：从识别的角度来看，多体印刷体汉字识别难于单体印刷体汉字识别，手写体识别难于印刷体识别，而脱机手写识别又难于联机手写体识别。可喜的是，经过科研人员的努力，我国已有印刷体汉字识别和联机手写汉字识别的商品出售，目前已形成百家争鸣、百花齐放的局面，但是脱机手写汉字识别还处于实验室研究阶段。在脱机手写汉字识别领域，非特定人脱机手写汉字识别又难于特定人手写汉字识别。二、手写汉字识别中存在的问题及困难手写汉字识别是一种重要的、适用于把手书文稿随时输入计算机的方法，也是机器字符识别最为困难的一个课题，这些困难和问题表现在：汉字类别多。仅《康熙字典》中就包含了49000多个汉字，而常用的汉字就有4000多个，因而汉字识别问题属于大类别（或者称为超多类）模式识别问题，在模式识别理论和方法研究方面有重大意义。汉字字形结构复杂。汉字集合中相似字较多，有些汉字的差别仅为一点或一个笔画，由于手写变形的存在，使得手写体中相似字的区分比印刷体要困难得多。因不同人书写风格的差异造成手写汉字的变形很大，具体表现在以下几个方面：基本笔画变化。横不平，竖不直，直笔变弯，折笔的拐角变成圆弧等。笔画模糊，不规范，该连的不连，不该连的却相连。笔画与笔画之间、部件与部件之间的位置发生变化。笔画的倾斜角、笔画的长短、部件的大小发生变化。对于脱机手写汉字，不同人使用不同的书写笔可能造成笔画的粗细变化。其中，手写汉字字形的变化是最难以解决的问题。一般认为，联机手写汉字识别较脱机手写汉字识别相对容易些。联机手写汉字识别是一种人工实时地把汉字输入计算机的方法，它利用书写板把笔画变为一维电信号，输入计算机的是以坐标点序列表示的笔尖移动轨迹，因而被处理的是一维的线条（笔画）串，这些线条串含有笔画数目、笔画走向、笔顺和书写速度等信息，而脱机手写汉字识别处理的仅是二维的汉字点阵图象，是汉字识别领域中最后一个十分困难的问题，目前仍然处于实验室研究阶段。由此可见，对非特定人脱机手写汉字识别而言，如果对手写汉字的书写不加任何限制，则识别难度相当大。科学研究中人们总是遵循从易到难的规律，从简单的问题入手来寻求突破口。由于自由手写汉字识别太难，人们提出了手写印刷体汉字识别，这已成为目前脱机手写汉字识别的主要研究对象。所谓手写印刷体是指书写工整的楷书手写体，要求书写者工整书写，尽量少连笔。三、脱机手写汉字识别方法简介自从ibm公司的casey和nagy于1966年首次发表关于汉字识别的文章以来，汉字识别取得了很大的进展，提出了很多理论和方法。对于脱机手写汉字识别而言，其识别过程通常如图2所示：通常，原始文稿通过光电扫描仪等输入设备转换成原始的二维图象信号，可以是灰度图象（grayscaleimage）或二值图象（binaryimage）。行字切分是将整页版面的原始图象先按书写行分割开，然后再从每行中切分出单个汉字图象。预处理通常包括大小归一化、平滑、细化或轮廓化等处理过程。特征抽取与分类器的设计是整个系统中最为重要的环节，稳定特征的抽取与良好性能的分类器的设计是整个识别系统的核心，它们直接决定了识别系统的性能。文本识别后处理是指对单字识别的结果，利用词义、语义等上下文先验信