藏文联机手写识别探究进展.pdfVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏文联机手写识别研究进展· 孙嫣也,吴健2 1中国科学院软件研究所基础软件国家工程研究中心,北京100190) 2(中国科学院研究生院,北京 100190) 摘要: 藏丈的信息化处理具有重要的理论意义和实用价值.本文主要对藏文联机手写识别的流程和算法进行了 讨论.对比了汉字联系手写识别的方法,本文提供了有效的改进方案和实验数据,包括预处理,特征提取,聚类以及 分类等部分.实验结果表明,文中的方法有效可行,适用于藏文的联机手写识别,并为进一步研究奠定基础. 关键词: 手写识别:藏文 中图法分类号:TP391 文献标识码:A 语言文字的信息处理技术是人类社会现代化的重要成果.信息处理技术的水平已成为一个国家、一个民族 发展进步的重要标志.改革开放以来,在实现汉语言文字信息处理技术的同时,我国少数民族语言文字信息处理 技术也取得了巨大成就.其中,藏文的信息处理工作从上世纪80、90年代起就取得了突破仕进展. 目前藏文的计算机输入主要存在以下几个问题: 17543.1998),但受到当时藏文信息技术发 1) 国家虽然在1998年颁布了藏文键盘布局国家标准(GB/T 展的制约,使用并不方便,凼此在藏文系统很少被采用. 2’ 目前藏文输入法大概有十几种,常弛的备方正、华光、班智达等,但是每个输入法都宙各自的藏文键 盘布局,不能通用,增加了用户的培训成本. 3) 新修订的藏文键盘布局国家标准(GB/T22034-2008)虽然已于2008年6月发布,但是该标准所定义的 五层藏文键盘要远比汉字键盘复杂,不适合初学者掌握. 解决这些问题最好也是最实际的方法就是研发藏文的手写输入.由于联机手写输入是一种方便的输入方 法,适用于微型电子产品,因此藏文联机手写输入的研究不仅有理论意义,更有实用价值. 1藏文特点和基本单元的选择 1.1藏文的文字组成及书写特点 藏文是一种拼音文字,有30个辅音字母,4个元音符号【9】.藏文中的词由音节组成,音节之间用”’。分开 【2】.由辅音和元音上下拼写成一个音节,音节可以有前加辅音、后加辅音、再后加辅音.在音节中,按垂直来划 分成字符.字丁由1.3个辅音字母和1个元音字母按上下叠加的纵向线性形式组合而成.藏文的层次结构为:字 母一字丁(字符)一音节一词一甸子. 作者简介:7孙盘I(1983一),女,辽宁大连人,颂士研究生,主要研究领域为中文信息处理:吴健《1962一),男,研究员,主要研究领域 为中文信息处理与信息系统. ,阮符 下加’≠ 图l藏文音节的构成 藏文的手写体与印刷体有很大的不同.藏文手写体分两大类,大体相当于汉字手写体中的楷书和草书.手写 藏文除了具有藏文的特点外,相对于汉字手写字符,还有如下特点【8】【lI】: 1)第一笔在基线位置,且为直线型笔画但这只限于藏文手写楷体,很多草体并没有书写基线,或者基线成 弧状、曲线型 2)书写顺序:从基线位置开始,从上到下书写,如果有上元音则最后一笔又到基线以上位置. 3)笔画方向:藏文手写输入时,同一笔画的输入方向是不确定的.这一点和汉字的手写输入习惯是有很大 差别的.对于汉字字符,笔画的方向基本不会因为不同人的输入而发生变化,但藏文的手写输入方向不一致. 4)连笔现象相对于草体来讲并不突出. 5)草体和楷体在形态上有巨大区别,不熟悉藏文的人很难认出一个藏文的手写革体所代表的具体字丁. 1,2基本处理单元的选择 要进行联机藏文手写识别的研究。就应该首先确定识别处理的基本单元.确定了基本单元,才能根据基本单 元的特点来选择合适的特征提取方案, 在藏文的字母、字丁和字(音节)中,本文选用藏文字丁作为联机藏文手写识别的基本处理单元.理由如下: 1)在通常情况下,拼音文字等采用字母作为基本处理单元:但是这种方法并不适用于藏文因为藏文在书 写过程中字母与字母问连接紧密,字母在叠加时发生变形,导致了分析联机藏文手写数据时界定藏文字母的困 难. 2)藏文的字(音节)由藏文字丁水平连续组成,一个字中的字丁之间在结构上是独立的.字丁与字丁之问容 易界定. 3)参照《信息技术藏文编码字符集扩充集A》编制巾的说明:。在国际标准框架

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档