- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
清华大学学报(自然科学敝) 25/57
堕竺塑篓!!=!!垂
11塑量矍!!童 !些:!!!::翌!!!!!!竺!丝!:!!!!!兰!垒旦竺!
手写汉字特征抽取的模糊归纳学习处理
钱国良,王熙照,陈 彤
哈尔滨工业大学计算机科学与工程系.哈尔滨150001
hit.eduC12
E—mail;glqian@mlg
文摘:如何从每个汉字的不同样本中抽取准确一致的特征是手写汉字识别极其重要的荽础工
作,本文从模糊归纳学习的角度.针对手写汉字特征抽取的不确定性,提出了模糊决策树算
法Fm,它可氍处理连续值属性及分类不确定的情况.将艇D应用于脱机手写汉字识别的特征
抽取过程并与传统方法进行比较,实验结累表明FID抽取的特征类内重码率高.娄阃重码率低,
识别率高.
关键词手写汉字识别;特征抽取:模糊归纳学习:模糊决策树
l传统特征抽取方法
手写汉字识别实质上可表示成一种多对一的特征空间变换问题.如表·I所示:其中,
F=if,,B,£,fn)示汉字特征集【输入空问);c表示汉字类别集L输出空间):则训练过程实质上
就是寻找一个好的学习算法,通过对汉字样本的子特征空间变换的学习获得知识.从而对汉罕
样本的全特征空间变换以较高的精度进行预测。
O 2 4 一, 汉
3 5 -, 字
.,
0 2 ., 中
表一l持怔至矧至秧最
特征抽取是识荆的基础。抽取什么样的特征,用什么方法抽取特征,~直是汉字识别中的
一大难题f}。}。下面将传统方法对于特征向量的抽取过程形式化描述如F:
常数集,f(e,,e:…,e。)是一个算术表达式。则在进行特征抽取的过程中.我们通常在程序中确定
s(e.))thenf,=dk,1:m.其中.d。.dk∈D.;
剜1.£表示笔划的写法:横、竖、撇、撩、点。D,={0.1.23.{}E。={e.、ec_,e3},.其中对应关
系为:(1)D..横0:竖l: 撇2: 撩3: 点4;(2)e。笔划的起点坐标:龟:笔划
的终点坐标;e、.笔划的水平倾斜帮度;
则对于特征£的抽取在程序中存在以下规则:(1)蚓e1一皇i10)then
lo]l(=30。)thenf:0: (3)if(Ie}一龟p=10&&60。=Ie31=90。)thent=I:
30。等(e3=60。)then厶=2;(5)irfle,-c2j=10&&一60。=‘e3(盖30。)then‘=3。
一般字l,复杂事2:(2)e,:汉字样本中笔身J在整爪汉字框架中昕舀的面积百分比(标准的汉字
86 清华大学学报(自然科学版) 1998,38(S2)
矩形框):
则对于特征£的抽取在程序中存在以下觎则:(1)if(81
70%)then£=l;(3)if(el=70%)thenf2=2。
显然,在传统的特征抽取方法中,根据经验给定抽取规则,描述比较简单,将规则直接写
入程序中,特征抽取速度比较快:然而对于手写汉字,其书写方式各异,具有很强的模糊性。
而上述的规月g无法体现出人们书写和识别汉字的这种特性。西此传统的特征抽取方法存在很大
的局限性:(J)持}芷抽取的规则都是硬性划分即分类是明确的,不能体现手写过程中固有存在
的模糊性。r2)抽取特征的规则都是经验性的,人为给定的,不具有智能性和普遍性。如果根
据例l的规则.关于汉字样本“中”的不同写法,抽取的横竖撇撩特征将会有较大的差别,如
图.J所示=
文档评论(0)