汉字识别的技术研究.docVIP

下载本文档

24
0
约5.4千字
约 28页
2017-03-17 发布于北京
举报
版权申诉

汉字识别的技术研究.doc

1、本文档共28页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉字识别技术研究摘要：关键词目录 1 绪论 1 1.1 汉字识别的研究背景与现实意义 1 1.2 我国汉字识别技术发展历史与现状 2 1.3 本文研究的主要内容 3 2 汉字识别技术的相关基础知识 4 2.1 概述 4 2.2 汉字识别流程 5 2.2.1预处理 5 2.2.2 特征提取 6 2.2.3 特征匹配与汉字识别 7 2.2.4 后处理 7 2.3 汉字识别模式 8 2.3.1 结构模式识别 8 2.3.2 统计模式识别 8 3 汉字识别系统 9 3.1汉字图像增强 9 3.1.1 二值化处理 9 3.1.2 平滑去噪 10 3.1.3 行字切分 10 3.2 特征提取 12 3.2.1 统计特征 12 3.2.2 特征提取方法 13 3.3 特征匹配识别 13 3.4 后处理 14 4 系统仿真与实验结果 15 4.1实验环境 15 4.2实验过程 15 4.2.1预处理 15 4.2.2 特征提取与特征识别 19 4.2.3 比对实验 21 4.3仿真结果分析 22 4.4 本章小结 22 5 总结与展望 23 5.1总结 23 5.2展望 23 致　谢 25 参考文献 26 1 绪论 1.1 汉字识别的研究背景与现实意义据文献记载，印刷体汉字的识别最早可以追溯到60年代。1966年，IBM公司发表了第一篇关于印刷体汉字识别的论文，在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来，日本学者做了许多工作，其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统；80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统，代表了当时汉字识别的最高水平[1]。此外，日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵，没有得到广泛应用。 80年代初期，日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%，识别速度大于100字/秒，代表了当时汉字识别的最高水平。80年代中期以来，以软件为主并使用通用高档微机的产品走向市场。汉字作为中华民族文明发展的信息载体，已有数千年的历史，也是世界上使用人数最多的文字，它记录了璀璨的民族文化，展示了我国独特的思维和认知方法。随着计算机技术的推广应用，尤其是互联网的日益普及，人类越来越多地以计算机获得各种信息，大量的信息处理工作也都转移到计算机上进行。因此，对于我国而言，在日常工作尤其是和我们接触颇多的警务工作中，存在着大量的文字信息处理问题，因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富，其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的，这使得以键盘输入为主要手段的计算机输入设备变得相形见绌，输入速度低已经成为信息进入计算机系统的主要瓶颈，影响着整个系统的效率，值得一提的是，这对于处理案件等警务工作的影响尤为明显[2]。因此，要求有一种能将文字信息高速、自动输入计算机的方法。这种快速，准确的自动处理方式将在很大程度上推动我国信息化的发展进程，对公安工作也有着相当深远的意义。 1.2 我国汉字识别技术发展历史与现状我国对印刷汉字识别的研究始于70年代末、80年代初，大致可以分为三大阶段[2]：第一阶段，从70年代末期到80年代末期，主要是算法和方案探索。第二阶段，90年代初期，汉字识别技术由实验室走向市场，初步实用。第三阶段，主要是印刷汉字识别技术和系统性能的提高，包括汉英双语混排识别率的提高和稳健性的增强。同国外相比，我国的印刷体汉字识别研究起步较晚。中国是使用汉字最久远和最广泛的国家。因此，能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现，它不仅与人工智能的研究有关，而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言，实现在高速率，高效率的汉字识别技术方面的突破是目前的棘手问题，虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步：从简单的单体识别发展到多种字体混排的多体识别，从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别，解决了多体多字号混排文本的识别问题，对于简单的版面可以进行有效的定量分析，同时汉字识别率已达到98%以上。但是就汉字本身属性而言，仍然面临着以下方面的困难： (1)类别较大目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集中共有，6763个常用字，分为两级。第一级3，75