一种基于三级分类器藏文识别方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于三级分类器的藏文识别方法1 严海林木 江获料 (木北京理工大学自动控制系北京100081) E-mail:Y垒垒h垒i!i堕壁bi!:!堕坚:!! (料中国社会科学院民族学与人类学研究所北京100081) E-mai 1:ji垒翌g亟i鱼!垒!i:Q£g:£垒 摘要:本文根据藏文字丁的特征,提出了一种基于三级分类器的藏文字丁识别方法,此方法依据藏文本身 的特点提取了藏文字丁的三个特征:元音特征、密度特征和网格特征,并依据每一个特征作为一级分类器 进行分类识别,试验表明此方法有较好的识别效果。 关键词:藏文识别,三级分类器,HMM 1引言 近年来,中国各种少数民族文字标准编码逐渐增多,相应的计算机处理平台相继面世, 这意味着少数民族语言文字的信息化开始朝更深一层的领域发展,包括少数民族文字识别, 语音识别及自动文本处理等等。 藏文是世界上一种优秀的、成熟的文字。我国藏文文献量极其丰富,开展藏文字符识别 的研究具有极高的理论价值和广阔的应用前景。本文针对藏文识别处理,提出了一种基于三 级分类器的印刷体识别方法,此方法提取了藏文字丁的三组特征,分级进行识别,试验表明, 其对藏文的识剐有较好的效果。 2藏文字符的特点 藏文是一种以辅音字母为主要构件组成的拼音文字,左右拼写、上下叠加。它以音节为 构词单位,音节拼写的每一个横向基本单元称为一个字丁。藏文字丁包括单层辅音字母和所 有纵向叠加的组合符号。虽然现代藏文的字母数并不多(30个辅音字母和4个元音字母), 但因音节的拼写同时具有横向性和纵向性,从字丁中分离字母非常困难。所以,藏文识别按 照整字丁方法进行识别比较可取。 由于涉及梵音藏文现象,藏文字丁的数量极为庞大,本文讨论仅限于现代书面藏语常用 字所包容的字丁符号(本项目建立了1006个字符的常用字丁库)。藏文常用字丁数量虽然不 多,但相似字丁不少,这是藏文字符识别的一大难点,表l列出了藏文部分相似字丁的情况。 ≠4字形特征上,藏文字丁的高度不等,所有字丁、音节点、单垂线依基线对齐,2基线之上 有或没有元音,基线之下因字母叠加层数的不同而不等高(图1)。 1本项研究得到中国社会科学院语音学与计算语言学重点实验室项目资助。 2文本书写上,藏文音节字各组成部分依辅音字母起笔点位置形成一条水平线,横向排列的字母或者 叠置组合字母,无论带不带上置辅音,在书写形式的上方都不能超出这条水平线。我们称这条在上置元音 与辅音书写之间所形成的视觉水平线为藏文书写图形上的基线。 ..280.. 相似的起因 q和司 和弋 1和1目和昌 5和蔷 击和蔷 乓和《 总计 相似对数 74 30 56 1l 13 12 1l 207 占字库比例 14.7% 6.O% 11.1% 2.2% 2.6% 2.4% 2.2% 41.2% 表1由基字导致的相似字丁 图1藏文文本格式和结构 3藏文字符的切分与归一化 经过扫描及预处理的藏文文本图像为二值图像,即: , f 1文字象素点 2:,,。10背景象素点 2‘1 其中,丁表示藏文文本图像的二值化图像点阵,f,.,分别为点阵的行数和列数。在进行藏文 字丁的识别之前,首先要将这些字丁从藏文文本图像中切分出来:同时,由于现实中藏文存 在多种字号,而标准模式中不可能存储所有字号藏文字丁的模式,因此识别前要将所有字丁 归一化为统一模式。 3.1字丁切分 字符切分采用最常用的积分投影法,字符切分包括行切分和字切分。 将原始图像按水平方向投影,即将所有横向上的黑象素值进行累加 鼻=∑霉,J,其中J为J

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档