- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
?
?
浅谈新疆地区少数民族文字识别系统的发展进度
?
?
哈毕旦·加拿西
【摘 要】数字资源为新兴时代图书馆必不可少的资源之一,而文字识别技术是建立数字资源过程中的重要环节之一。本文以新疆维吾尔自治区内的维、哈、柯等少数民族文字为主题,提出了少数民族地区数字文献事业发展的进展和现状
【Key】新疆;民族;文字识别;发展进度
我国是多民族国家,尤其是在新疆维吾尔自治区共有13个少数民族在这富饶的土地上共同生存和繁荣发展。在我国少数民族语言文字政策的大力支持下,我区各民族都在使用各自的语言文字并通过在语言文字领域不断引进新兴技术,使各自的文字领域创造了数字化、自动化的新的局面。本文提出的少数民族文字识别系统指的是使用某种数字技术把现存的少数民族文字编写的纸质文献通过扫描形式先转化为计算机能识别的标准图像格式,再用类似于中文文字识别软件OCR等转换工具把以图像格式保存的文字转换成WINDOWS等系统的WORD或其他文本格式文件的过程。这些文本文件形成后根据使用者的需求会直接被使用或再进行二次加工用PDF文件或HTML网页文件等软载体传播并提供给读者阅读。文字识别系统为后者提供准备工作和硬条件,也就是为电子图书等数字文献的形成做中转的作用(如图1)。介绍新疆地区少数民族文字识别系统之前,我们必须先了解其文字背景和特点,首先简单介绍一下我区少数民族文字现状。
一、少数民族文字基本情况
在新疆地区,维吾尔族、哈萨克族、柯尔克孜族等属于突厥语系的民族现在都使用自己的语言和文字实现各种交流和沟通。这几个民族使用文字的历史原因,使用文字变化多样化、因时代不同而使用文字不同等特点已经导致文字的不统一性和不确定性。在解放前后都已经使用过新、旧文字两种文字表达方式。而他们现在用的文字是国家按有关语言文字的特征,在阿拉伯文字的基础上模仿性创造出的文字表达方式,是在阿拉伯文字的基础上更改并简化了部分环节后产生的新的字母,既有阿拉伯文字的有些特征并有自己的特点和不同。维吾尔文字使用32个字母,哈萨克文使用33个字母,柯尔克孜文使用30个字母(1983年版),这三种语言文字在各自中间也有些共同点和不同地方。
目前,虽然有关这些语言文字识别的研究有了些新的进展,其实幅度还是不能满足使用者对新技术的发展需求,可以说是出于发展的初级阶段。由于阿拉伯文和这些语言字符集上的相似性,可以借鉴阿拉伯文研究成果。但是阿拉伯文字识别的研究远远落后于拉丁文、中文等文字识别技术的研究,大部分的研究采用的是结构化的方法。
二、少数民族文字自动识别的特点
因为跟阿拉伯文字有不同点,这些语言文字的识别技术也会有自己的特点和不同之处,简单总结为以下几点:
(1)形成的少数民族文字电子书籍格式不统一或不完善,基本以图像格式使用,再有转化为文本格式的电子书籍也是很少一部分。因相关文字识别技术不成熟,好多电子图书都不是靠文字识别系统来转换为电子版的。在使用扫描形成的图像格式(*.BMP,*.JPG等文件)制作成包括PDF在内的各种格式的资料中,转换出的文本里不能正常显示的字母占的比例高或者各种符号的错误率较高、排版出现混乱等现象普遍存在,最后影响了整本电子文献的质量。这种现象的主要原因是某些字母在数字转换过程中没有能够达到识别的标准,部分原因来自于工作人员的疏忽和工作态度等。现在,已经以图像形式扫描成为电子文献的资源已经开始在社会各个领域使用并开始形成数据库。跟文本形式的电子书相比,这些图书在实际使用中确实不易利用,显然有很多不足之处。读者使用时这种图像个会的文件仅能通过输入文本格式的文件名来查询,而不能直接把文件内容使用各种文本编辑工具来编辑或通过 JAVA ,XML等脚本语言编程,对PDF或HTML等网页文件内容进行查询和编辑操作。
(2)因历史种种原因导致的文字使用背景,存在一种语言使用多种文字情况,识别过程比较复杂,处理一种语言文字需要两种解决途径,而且这两种解决方式是并且(U或者AND)关系的结构。拿维吾尔语和哈萨克语来讲的话,这两种语言到1965年前都使用阿拉伯文字形式的旧文字,从1965年开始使用拉丁文字形式的新文字,而又从1982年开始变更为以前的阿拉伯文字形式的旧文字。所以,处理这不同年代时的图书资料时,我们需要处理两种不同文字。虽然是一种语言,因使用的文字不同,而且这两种文字从结构上有根本性区别和不同的特点。这显然会要求我们准备和使用两种不同的处理技术和方案。
(3)文字识别系统准确率不高,识别质量低。虽然少数民族文字识别系统问世已有几年时间,软件技术基本不成熟,实际使用中遇到的需要攻关和还未能得到全面解决的技术性问题很多。不仅现有的少数民族文字识别软件的种类和数量都少,而它们的识别率等最关键的技术水平也未能得到提高,还处在初级研究和充实阶段,而且发展进度也比较慢
文档评论(0)