- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2O卷第1期 呼伦贝尔学院学报 No.1 、,01.20
2012年 2月 JoumalofHulunbeierCol1 PublishedinF ,2012
多字体印刷蒙古文文档识别系统基础资源的建设
包艳花
(呼伦贝尔学院蒙古语言文学学院 内蒙古 海拉尔区 021008)
摘 要:简述了研制 “多字体印刷蒙古文 (混排汉英)文档识别系统”过程中利用的基础资
源的建设情况,包括样本库的建立、各类标准样本的建设、字符分库的建立等.
关键词:蒙古文文档识别系统;样本库;标准样本;字符分库
中图分类号:H212 文献标识码:A 文章编号:1009-4601(2012)I)1—0106-04
在教育部、国家语委的资助下,清华大学电 (一)有代表性原则
子工程系、内蒙古大学蒙古学学院、内蒙古师范 蒙古文印刷文档,无论其数量上,还是种类
大学计算机信息工程学院合作研发了 “多字体印 上都是相当可观的。在收集蒙古文印刷文档测试
刷蒙古文 (混排汉英)文档识别系统”,该系统能 样本时,必须选择能够代表蒙古文印刷物版面特
识别印刷多字体的蒙古文字符和文档 ,能识别处 点的样本。
理多字体蒙古文字符混排汉英的文档 ,并能转换 (二)全面性原则
成Unicode编码,是集版面分析,文本行、词切分, 收集的样本要尽量涵盖蒙古文出版物的版面
字符识别 ,编码转换后处理,’纵向文档图文对照 种类。涵盖文科方面和理科方面等多学科;包括
后编改等技术于一体的蒙古文文档识别实用化系 单体和多体样本;蒙汉文混排及蒙汉英混排等多
统 。 ’ 文种混排样本。收集蒙汉文混排及蒙汉英混排样
在研制 “多字体印刷蒙古文 (混排汉英)文 本时,必须选择以蒙古文为主的纵向样本。
档识别系统”的过程当中,可利用的数据资源匮 目前,已收集的测试样本有25种,共 l8O页。
乏。因此 ,在系统研发各阶段的基础资源都是在 其基本上涵盖了蒙古文出版物的版面种类。所搜
核心识别方法确定后,一步一步建设起来的。 集到的测试样本包括书籍 、刊物、报纸、办公文
在建设 “多字体印刷蒙古文 (混排汉英 )文 件等,其每一类都有电子排印版和铅印版的样本。
档识别系统”基础资源的过程中,每一步的工作 对这些蒙古文印刷文档测试样本制作成扫描
都离不开蒙古语言文字知识的支撑,但 目前为止, 图像文件之后,由清华大学来选择作为标准样本
这些知识 比较凌乱,还没有形成一个体系,还有 的图像。把有阴影的、有特殊图标的、有特殊文
待于归纳 、总结。 本版式的、有背景干扰的、有折痕干扰的一些图
一 、 蒙古文印刷文档测试样本库的建立 像去掉后,选择了 115页的图像文件作为标准样
为了提高系统的实用性,在研发阶段需要随 本,其它的作为系统测试样本。
时测试系统的性能,使其得到进一步的改进,所 二、蒙古文印刷文档标准样本的录入
以 “多字体印刷蒙古文 (混排汉英)文档识别系 从 2O世纪 8O年代初开始,中国、蒙古国、
统”的研发过程中首要的工作就是建立蒙古文印 德国、日本 、匈牙利、美国等国家的不少蒙古学
刷文档测试样本库。
文档评论(0)