哈萨克文信息处理现状中若干问题探讨.docVIP

哈萨克文信息处理现状中若干问题探讨.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
哈萨克文信息处理现状中若干问题探讨

哈萨克文信息处理现状中若干问题探讨   摘要:通过信息领域术语的规范化及翻译、文字输入法原则和键盘布局、语料库建设与语料管理、机器翻译以及文字转换等方面的信息化建设的现状和进展为例,就目前开发和研究哈萨克文信息处理中存在的若干问题进行探讨。   关键词:哈萨克文;信息处理;输入法;术语规范化   中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2011)04-0045-02   0 引言   随着信息时代日新月异的发展,自然语言的计算机处理日益受到各方面的重视。在党和国家领导的支持下,哈萨克文信息处理技术在近几年取得了一定的进步,如:哈文新闻领域语料库已初步显出雏形、常用新闻词汇的词法分析、词汇校对、短语识别等处理均已形成基本框架,但在畜牧业、生物医学、信息通信等领域却还没有相应的语料库建设,甚至相关术语的使用还未达到规范化的统一标准,而距离真正意义上的实现文字转换、机器翻译等中国语言文字信息处理的要求,还存在着一段很长的差距需要不断填补。纵观哈文信息处理技术的发展历程,关注其不断进步的同时,也需要看到其仍存在的问题,现将若干问题论述如下。   1 信息领域术语的规范化翻译   术语体现和负载了一个学科领域的核心知识,同时,术语的变化也反映了一个学科领域的发展变化。随着现代科技的发展,新的科技术语在不断涌现,而术语的哈文翻译却凸显出其存在的混乱性,以致缺乏统一性,甚至于在哈文的教学教材以及与哈萨克斯坦相关领域的研究交流中引起了很多不必要的误解,因此哈文术语翻译的规范化和标准化显得越发必要而迫切,尤其在计算机普遍应用、各类数据库信息系统纷纷开通、因特网用户迅猛增长的今天。在各区域各民族之间的信息交流、各语言间的机器翻译以及文献的检索工作中,无论从语言材料的整理、研究来看,还是从语言的计算机处理来看,专业术语的统一性和规范化都是深入开展信息处理工作的重要基础,而且对于新学科的开拓、新理论的建立、最新信息的交流、书刊的编辑出版、文献的存储和检索以及信息的资源共享也是十分重要的。同时对于减少各区域问科技发展的不均衡性、加强各区域各民族间科学知识的传播与交流、科技成果的推广等研究目标的实现也是较佳的便捷途径。因此,作为中华民族语言之一的哈萨克语术语翻译的正规化已成为提升和推进哈文信息处理水平的一个非常重要环节。   2 哈萨克文字符及输入法   哈萨克语是跨境语言(哈萨克斯坦),属于阿尔泰语系突厥语族的克普恰克语支,拼音文字,中国的哈文借用了阿拉伯语和部分波斯文字母,有33个字母。其中,有9个元音字母,24个辅音字母,且每个字母的位置有词首、词中、词末和独立4种变体。哈萨克斯坦使用的是斯拉夫文字。字母表由42个字母构成,分印刷体和手写体,还有大、小写之分。字母表中的每一个符号基本上表示一个音位,有少数字母表示复合音位。使用的文字不同时,计算机的键盘布局也就不同。中国的哈萨克人使用的阿拉伯语字母输入的输入法也不只一种,例如:Alkatip输人法、施利民维哈柯输人法、华光书林维哈柯输人法等等,而且这些输入法的键盘布局在某些局部位置也并不一致。图1、图2就是现在信息交换中使用的哈萨克文键盘布局,虽然没有正式发布,但是20年来却一直在使用的1992年鉴定通过的键盘标准。   (1)按基档时,键盘布局如图1所示。   (2)按shift档时,键盘布局如图2所示。   因此,不同的输入法导致哈萨克文的输入文本之间互相不兼容,也就是需要进行转换,而这就会在报社、出版社、杂志社等机构信息的交换当中带来一些不便。因此不同输人法的输入文本转换就成为信息处理当中需要解决的基础问题。   3 语料库建设与语料管理   随着计算机科学的发展,自然语言处理研究逐渐发展壮大起来。自然语言处理中,语料是研究的材料,语料库是存储语料的资源。现在,哈萨克文具备了计算机信息处理的基本条件,且已进入了对其词、语法、语料库标注等信息处理阶段;今后,开发和应用高水平的语言文字处理软件,将是一项重要研究课题。语料库管理系统就是将分散的语料集中管理,可对其进行存储、索引以及一些初步处理的平台。设计和开发哈萨克文语料库管理系统,能对哈萨克文语料进行科学有效的管理,并能实现对哈萨克文文本的自动分类,为其后的哈萨克语言学研究提供可靠的素材。而且语言学和计算机的结合正逐渐出现,计算机技术的高效、快速等功能已能够存储和检索人类的大量语言资料,这更为语言学研究提供了极大的便利。因此,建立一个哈萨克语语料库,包括语料收集、语料录入、语料编辑和语料检索等;必须设定有效的管理方式,发展出一套合适的构建流程,同时还要开发一些配套工具。   4 机器翻译和文字转换   机器翻译是自然语言处理的一个重要研究领域,在当今信息社会及军事部门有着广泛的应用前

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档