- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代藏文识别
王维兰
西北民族学院数学系,兰州730030
商 要本文在分析了藏文文字特征的基础上,说明基本字符是藏文识别的最小单位,论述了基本字符的
}征抽取、分类方法与识别方法。
关键词 藏文识别模式分类特征抽取
TibetanCharacters
ofthe—M—‘。oa’‘ern
Recognition
Weilan
Wang
of Minorities 730030
Mathematics,NorthwestUniversity,Lanzhou
Department
Abstract oftheTibetanwords Basedon indicatethatabasiccharacteris
Thecharaeterietics w㈣ndysed this,we
theminimum characters The and methodofthebasic
unitofTibetan recognitiondraw,classificationrecognition
chmctersw·p.re
reviewed.
ofeharaeteristica.
KeyWordsTibetancharacterrecognition,patterncla.sSification,draw
1引言
藏文识别同其他文字识别~样,是用计算机自动辨别并输入印刷或手写在纸上的藏文文
字,是一种理想的高速文稿输入手段,大大减轻人的脑力和体力劳动强度。其实质是让计算机
能“看懂”藏文。在汉字识别研究取得了丰硕成果、许多商品化的系统成功地推入市场并获得
巨大的经济效益和社会效益的今天。让计算机“学习”各种语言文字,并对其能够识别,将极大
地促进各民族经济、文化、教育的共同繁荣发展,藏文也不例外,所以研究藏文识别将是很有意
义的。虽然藏文识别可以借鉴汉字识别技术,但藏文属于既拼型又拼音文字,其字型几何特
征、拓扑结构与汉字都不同的。因此决定了藏文识别与汉字识别有很大差异,必须研究、建立
藏文识别技术体系。本文就现代藏文基本字符的识别作~些初步的探讨。
2藏文文字特征
388
要使计算机能识别藏文,首先要将藏文文字特征有效地抽取出来。以供机器视觉识别和检
验。我们从信息处理的角度讨论藏文的文字特征。
藏文是一种特殊的既拼型又拼音的文字,现代藏文有30个辅音字母和4个元音字母拼型
拼音而成,30个辅音字母作为拼写音节的基本字母,称为基宇。元音字母不能单独组成音节,
必须和辅音字母拼合。音节拼成了藏文的词,把藏文音节中的一个纵向单位:基字或基字上
加、下加及元音符号的各种纵向迭加组合视为基本字符,词与词之间用“。’隔开,一个音节由1
到4个基本字符组成。也就是说,基本字符可以是一个基字,也可以是基字的迭加或者是元
音和基字的迭加。现代藏文中,由于藏文构词法则很规范,3个上加字,4个下加字和4个元
音符号严格按照语法规则而确定,只有上加字、下加字和元音符号依拼写规则才能与基字纵向
组合,迭加的层数最多只有4层。基本字符不超过600个,就可以100%地覆盏现代藏文。梵
音藏文最多有6层,加上元音最多有7层。这些特点决定了藏文识别的最小单位是基本字符。
3藏文基本字符特征抽取与分类
藏文基本字符特征抽取是藏文自身结构决定的。藏文编码字符集点阵字型国家标准是藏
文识别技术最主要的依据,它保证藏文信息的高倍压缩存储和压缩后字型还原失真度小。不产
生歧变。标准的藏文点阵字型,是按构件方式成型的,每一个点阵字型,都可以按标准切分成
若干构件,也就是说任何一个基本字符的点阵数据都可以由
文档评论(0)