- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
联机手写维文字符的预处理和特征提取方法
摘要:根据维吾尔字符的特点,介绍了归一化,平滑处理,重采样等几种预处理方法。并结合统计特征和结构特征各自的特点,提出了不变矩,投影,方向码,环等特征,用来构造字符的特征向量,便于进行字符的训练和识别。
关键词:预处理;不变矩;方向码
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)07-1607-03
The Method of Preprocessing and Feature Extraction for Online Handwritten Uyghur Characters
HAN Lin-feng, ZHAO Hui
(College of Information Science and Engineering, Xinjiang University, Wulumuqi 830046, China)
Abstract: According to the characteristic of the Uyghur, several preprocessing methods are introduced like normalization, smoothing, resampling and so on. Combined with statistical and structural features, features of Invariant Moment, Projection, Direction Codes, Loop and so on are adopted, in order to construct feature vector and train.
Key words: preprocessing; invariant moment; direction codes;
联机手写字符识别技术的研究是从上世纪五十年代开始的,经过几十年的发展,英文,汉字的手写体识别技术已经相当的成熟。在新疆,印刷体维吾尔文识别技术也取得了很好的成果,但手写体维吾尔文的识别还处于实验性阶段。通过对英文,汉字,阿拉伯文的字符识别技术进行研究,提出了一种联机手写维吾尔字符识别的预处理和特征提取的方法。
维吾尔文字母表中有32个基本的字符,每个字符一般都有两种或者四种书写形式。根据字符在单词中位置的不同,其书写形式可以分为四类:独写形式,尾写形式,首写形式和中写形式。在维吾尔文中,存在很多相似的字符,它们的主体笔画相同,区别仅仅在于附加笔画的类型,数目和位置等,如图1所示。相似字符的存在给识别带来了难度,如何选择合理的特征将成为影响字符识别率的关键因素。
1 数据的采集和预处理
将手写板和PC机进行相连,在手写板上书写字符时,可以获取一组带有时序信息的数据:(Xi,Yi,flag)。其中,(Xi,Yi)代表每个采样点的坐标值,flag通常是一个标志位,取值为0或者1,用来标示书写笔是否与手写板相接触。对这些数据进行分析,可以获取的信息有:每个字符的笔画数目;字符中每一个笔画对应的坐标序列值;每一个笔画的起始和结束位置。获取数据之后,需要对其先进行预处理,而后再进行特征的提取。
1.1 去除干扰点
这里的干扰点包括重复点和噪声点。当书写笔的笔尖在手写板的同一个位置上停留时间过长时,手写板就会在该点上重复采样,反映到坐标序列中就是会有一段坐标值完全相同的数据。同时,在对数据进行平滑处理和归一化处理之后,也有可能产生新的重复点。因此需要删除重复点,只保留一个坐标点即可。
噪声点的出现可能是由于手写板等硬件设备引入的,也有可能是书写时手的抖动引起的。线性平滑技术是一种比较简单的去除噪声点的方法,对于坐标点(xi,yi)进行平滑处理之后的新坐标可以通过公式(1)进行计算:
(1)
1.2 归一化处理
在手写板上书写字符时,其大小和位置不易固定,为了使提取的特征更加有效的反映字符的信息,需要进行归一化处理。
1)位置归一化:有两种比较简单的位置归一化方法:基于质心的归一化方法和基于字符外边框的归一化方法[5]。其中,基于质心的归一化方法,需要先计算字符的质心,然后将质心移动到指定的位置上,联机字符的质心可以利用公式(2)进行计算。基于字符边框的归一化,需要先计算字符坐标的四个边界得到字符的外边框,然后将边框的中心移动到指定的位置上。
(2)
其中,f(x,y)=1表示该像素点为字符上的一个采样点,f(x,y) =0表示该处像素为背景点。
2)大小归一化:利用线性归一化,可以将字符的外边框按比例缩放成为固定的尺寸。在对字符的X,Y坐标进行
您可能关注的文档
最近下载
- 《无人机艺术摄影》课件——项目5 无人机拍摄视频.ppt VIP
- HD21.2 S3-1997+A1-2002 额定电压450/750V及以下热塑性绝缘电缆 第2部分:试验方法(中文).pdf VIP
- 基于体卫融合的儿童青少年运动指南(2024) .pdf VIP
- GB_T 18920-2020 城市污水再生利用城市杂用水水质.pdf VIP
- 陀螺仪减震装置及无人机.pdf VIP
- 12J003室外工程(标准图集).docx
- 项目管理办公室PMO实践指南.docx VIP
- 最新医疗器械分类标准目录.pptx VIP
- 风电场项目风机及附属设备吊装工程(混塔风机吊装施工方案).pptx VIP
- DLT 5265_水电水利工程混凝土搅拌楼安全操作规程.pdf VIP
文档评论(0)