漢字识别技术研究.doc

下载文档 降价啦

4
0
约1.64万字
约 28页
2017-01-15 发布于重庆
举报
版权申诉
保障服务

漢字识别技术研究.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

漢字识别技术研究

汉字识别技术研究摘要：本文主要在研究当前光学字符识别系统及相关识别技术的基础上，利用matlab编程语言设计了一套简单的相对具有较高识别率的汉字识别程序。首先，将RGB图像转化为二值图像(即仅有黑白二种颜色的图像)，而后经平滑处理，滤除混入的噪声，得到清晰完整的文字图像，其次，进行行字切分使整篇文字图像成为单个文字图像，最后提取汉字的横竖撇捺特征与现有的汉字特征库进行比较匹配从而进一步输出汉字的数码形式。实验结果表明，本文研究的方法能够识别汉字，准确率较高。关键词：印刷体汉字识别；预处理；特征提取；特征匹配目录 1 绪论 1 1.1 汉字识别的研究背景与现实意义 1 1.2 我国汉字识别技术发展历史与现状 2 1.3 本文研究的主要内容 3 2 汉字识别技术的相关基础知识 4 2.1 概述 4 2.2 汉字识别流程 5 2.2.1预处理 5 2.2.2 特征提取 6 2.2.3 特征匹配与汉字识别 7 2.2.4 后处理 7 2.3 汉字识别模式 8 2.3.1 结构模式识别 8 2.3.2 统计模式识别 8 3 汉字识别系统 9 3.1汉字图像增强 9 3.1.1 二值化处理 9 3.1.2 平滑去噪 10 3.1.3 行字切分 10 3.2 特征提取 12 3.2.1 统计特征 12 3.2.2 特征提取方法 13 3.3 特征匹配识别 13 3.4 后处理 14 4 系统仿真与实验结果 15 4.1实验环境 15 4.2实验过程 15 4.2.1预处理 15 4.2.2 特征提取与特征识别 19 4.2.3 比对实验 21 4.3仿真结果分析 22 4.4 本章小结 22 5 总结与展望 23 5.1总结 23 5.2展望 23 致　谢 25 参考文献 26 1 绪论 1.1 汉字识别的研究背景与现实意义据文献记载，印刷体汉字的识别最早可以追溯到60年代。1966年，IBM公司发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平[1]。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵，没有得到广泛应用。 80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%，识别速度大于100字/秒，代表了当时汉字识别的最高水平。80年代中期以来，以软件为主并使用通用高档微机的产品走向市场。汉字作为中华民族文明发展的信息载体，已有数千年的历史，也是世界上使用人数最多的文字，它记录了璀璨的民族文化，展示了我国独特的思维和认知方法。随着计算机技术的推广应用，尤其是互联网的日益普及，人类越来越多地以计算机获得各种信息，大量的信息处理工作也都转移到计算机上进行。因此，对于我国而言，在日常工作尤其是和我们接触颇多的警务工作中，存在着大量的文字信息处理问题，因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富，其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的，这使得以键盘输入为主要手段的计算机输入设备变得相形见绌，输入速度低已经成为信息进入计算机系统的主要瓶颈，影响着整个系统的效率，值得一提的是，这对于处理案件等警务工作的影响尤为明显[2]。因此，要求有一种能将文字信息高速、自动输入计算机的方法。这种快速，准确的自动处理方式将在很大程度上推动我国信息化的发展进程，对公安工作也有着相当深远的意义。 1.2 我国汉字识别技术发展历史与现状我国对印刷汉字识别的研究始于70年代末、80年代初，大致可以分为三大阶段[2]：第一阶段，从70年代末期到80年代末期，主要是算法和方案探索。第二阶段，90年代初期，汉字识别技术由实验室走向市场，初步实用。第三阶段，主要是印刷汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强。同国外相比，我国的印刷体汉字识别研究起步较晚。中国是使用汉字最久远和最广泛的国家。因此，能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现，它不仅与人工智能的研究有关，而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言，实现在高速率，高效率的汉字识别技术方面的突破是目前的棘手问题