- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多特征提取的中文识别算法论文演示_历年数学建模优秀论文大全
1 基于多特征提取的中文识别算法 课题研究意义 基于多特征提取的识别算法原理 算法实现流程 结果分析 课题研究的意义 随着计算机技术的发展和普及,传统的汉字编码输入方案已经不能满足大众化的需求,汉字输入成为我国计算机科学发展的瓶颈问题,而手写汉字识别技术是解决这一问题的关键. 现在生产的电子产品已经日趋智能化,如手机、PDA等,手写汉字识别技术在这些产品中的应用越来越多,由于硬件资源的限制,电子厂商迫切需要一个简单易行而效果也能满足要求的识别算法。 基于多特征提取的识别算法原理 算法原理综述 汉字是一种结构文字,所以在进行手写汉字识别时,笔划信息一定要充分利用起来,同时我们知道,单纯的笔划特征不足以区分所有汉字,现在我们考虑将输入汉字图象分别从笔划和相素角度做两次分类识别,以下分别称为粗分类和细分类。 在粗分类阶段,我们先根据基于笔划的识别算法把范围缩小,即根据笔划数和笔划顺序从字库选出几个可能的汉字,至于怎样从这几个汉字中找出正确的对应字符就由细分类部分完成。 基于多特征提取的识别算法原理(续) 在细分类阶段,可以根据网格划分的算法对粗分类后的若干汉字进行识别,由于范围已经很小,所以该步骤不需要划分太细,通常情况下做3*3分区即可取得理想结果。注意,用该方法要对汉字图象做规范化处理,我们可以稍做改进,把每区的黑色相素点数改为此数与汉字总相素点数的比值,这样就可以排除汉字大小不一的干扰。 基于多特征提取的识别算法原理(续) 预处理 由于下一步进行的粗分类要以笔划为特征,所以在预处理阶段要完成消除噪声点以便判断笔划的工作,具体来讲主要完成以下工作: (1)从输入图像得到点序列。 (2)为了消除起笔和落笔抖动,删除点序列两端的若干点,消除点序列中间的异常点。 (3)记录图像的最大、最小x,y坐标,以便在细分类时使用。 基于多特征提取的识别算法原理(续) 粗分类 在介绍粗分类要完成的工作前,先要了解该算法对笔划的分类和笔划相似度的定义。下图是二维平面上方向笔划的义。 基于多特征提取的识别算法原理(续) 基于多特征提取的识别算法原理(续) 从上一部长得到每点方向后,消除一些异常的方向(即和附近点方向都不一样的点),然后可根据多数点的方向判断该笔划数,粗分类时距离定义如下: 距离 d= 其中 是定义的笔划相似度,如下表。 基于多特征提取的识别算法原理(续) 粗分类后,要对汉字图像进行细分类进行匹配识别,该过程采用划分网格的方法,由于粗分类阶段已经将范围缩小,所以该阶段只需采用3*3网格即可. 细分类 该阶段首先对汉字图像进行划分,统计各区相素点数,为了归一化,还要计算出各区相素点与图像总相素点数的比值,如下图: 基于多特征提取的识别算法原理(续) 现在把上图的统计特征表示为一个数组记为test.p[9],若字库中第i组特征为tez[i].p[9],则待识别汉字图象与字库里第个字的距离为: 为了便于识别,需要定义阈值dis,若ddis,即可认为输入汉字为字库中第i个字符。 算法实现流程 结果分析 下图是用Visual C++程序设计语言实现该算法的程序界面,其中的”学习”命令按钮主要用于向字库添加汉字特征,以便在以后的使用中识别. 结果分析(续) 结果分析(续) 结果分析(续) 结果分析(续) 该算法结合了笔划和统计特征,能使识别率达到90%以上,也能够识别笔划特征相同的汉字如”六”和”文”,但也存在一些问题和不足,表现在以下两个方面: (1) 算法对书写的规范性要求很高,对于书写不规范的汉 字图像将无法识别或得到错误结果,其主要原因是系统无法从 书写不规范的汉字图像中获取正确的笔划特征. (2) 算法对笔划顺序特征要求严格,即必须依学习该汉字时的顺序书写,这主要是出于粗分类的需要. 拟解决方案: (1)可以通过改进预处理算法或完善输入设备来解决。 (2)可以对同一汉字进行多次学习,从而满足多用户的需求. * * 基于多特征提取的中文识别算法 姓 名:刘平净 学 号指导教师:何光辉老师 专 业:信息与计算科学 笔划的
文档评论(0)