- 2
- 0
- 约5.32千字
- 约 28页
- 2016-06-07 发布于贵州
- 举报
汉字识别技术研究
摘 要:关键词
目 录
1 绪论 1
1.1 汉字识别的研究背景与现实意义 1
1.2 我国汉字识别技术发展历史与现状 2
1.3 本文研究的主要内容 3
2 汉字识别技术的相关基础知识 4
2.1 概述 4
2.2 汉字识别流程 5
2.2.1预处理 5
2.2.2 特征提取 6
2.2.3 特征匹配与汉字识别 7
2.2.4 后处理 7
2.3 汉字识别模式 8
2.3.1 结构模式识别 8
2.3.2 统计模式识别 8
3 汉字识别系统 9
3.1汉字图像增强 9
3.1.1 二值化处理 9
3.1.2 平滑去噪 10
3.1.3 行字切分 10
3.2 特征提取 12
3.2.1 统计特征 12
3.2.2 特征提取方法 13
3.3 特征匹配识别 13
3.4 后处理 14
4 系统仿真与实验结果 15
4.1实验环境 15
4.2实验过程 15
4.2.1预处理 15
4.2.2 特征提取与特征识别 19
4.2.3 比对实验 21
4.3仿真结果分析 22
4.4 本章小结 22
5 总结与展望 23
5.1总结 23
5.2展望 23
致 谢 25
参考文献 26
1 绪论
1.1 汉字识别的研究背景与现实意义
据文献记载,印刷体汉字的识别最早可以追溯到60年代。1966年,IBM公司发表了第一篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平[1]。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。但价格过于昂贵,没有得到广泛应用。
80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统, 识别率为99.88%,识别速度大于100字/秒,代表了当时汉字识别的最高水平。80年代中期以来,以软件为主并使用通用高档微机的产品走向市场。
汉字作为中华民族文明发展的信息载体,已有数千年的历史,也是世界上使用人数最多的文字,它记录了璀璨的民族文化,展示了我国独特的思维和认知方法。随着计算机技术的推广应用,尤其是互联网的日益普及,人类越来越多地以计算机获得各种信息,大量的信息处理工作也都转移到计算机上进行。因此,对于我国而言,在日常工作尤其是和我们接触颇多的警务工作中,存在着大量的文字信息处理问题,因而将文字信息快速输入计算机的要求就变得非常迫切。现代社会的信息量空前丰富,其中绝大部分信息又是以印刷体汉字的形式进行保存和传播的,这使得以键盘输入为主要手段的计算机输入设备变得相形见绌,输入速度低已经成为信息进入计算机系统的主要瓶颈,影响着整个系统的效率,值得一提的是,这对于处理案件等警务工作的影响尤为明显[2]。因此,要求有一种能将文字信息高速、自动输入计算机的方法。这种快速,准确的自动处理方式将在很大程度上推动我国信息化的发展进程,对公安工作也有着相当深远的意义。
1.2 我国汉字识别技术发展历史与现状
我国对印刷汉字识别的研究始于70年代末、80年代初,大致可以分为三大阶段[2]:
第一阶段,从70年代末期到80年代末期,主要是算法和方案探索。
第二阶段,90年代初期,汉字识别技术由实验室走向市场,初步实用。
第三阶段,主要是印刷汉字识别技术和系统性能的提高,包括汉英双语混排识别率的提高和稳健性的增强。
同国外相比,我国的印刷体汉字识别研究起步较晚。
中国是使用汉字最久远和最广泛的国家。因此,能否在汉字识别方面占据领先的位置是中国科技实力的一项至关重要的体现,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等都有着千丝万缕的联系。因此针对于我国当前的状况而言,实现在高速率,高效率的汉字识别技术方面的突破是目前的棘手问题,虽然我国印刷体汉字识别技术的发展和应用已经有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到98%以上。但是就汉字本身属性而言,仍然面临着以下方面的困难:
(1)类别较大
目前我国常用汉字约3000~4000个。国标GB2312一80常用汉字字符集中共有,6763个常用字,分为两级。第一级3,755个汉字,使用频度为99
您可能关注的文档
最近下载
- 成人2型糖尿病口服降糖药联合治疗专家共识(2025版)解读.pptx
- 审计发现问题线索移送工作实施细则.docx VIP
- 2025年6G核心网网络架构与关键技术白皮书.pdf VIP
- 部编版四年级下册道德与法治全册教学设计(全册教案) .pdf VIP
- 螯合树脂软化除硬计算,输入数据可自动计算.xlsx VIP
- 首师大版道德与法治二年级下册《亲近大自然》课件.pptx VIP
- 离婚协议书怎么写自愿离婚协议书.docx VIP
- 20S515 钢筋混凝土及砖砌排水检查井.docx VIP
- The Kardashians《卡戴珊家族(2022)》第五季第四集完整中英文对照剧本.docx VIP
- 6G内生安全可信技术白皮书.pdf VIP
原创力文档

文档评论(0)