數字化技术在少数民族语言研究中的关键技术与应用评述.docVIP

數字化技术在少数民族语言研究中的关键技术与应用评述.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
數字化技术在少数民族语言研究中的关键技术与应用评述

数字化技术在少数民族语言研究中的关键技术与应用评述 前沿 少数民族语言文字不仅是少数民族生产生活的交流工具,更是民族文化的重要内容和载体. 随着社会开放程度的不断提高,民族语言文字的使用有衰退的趋势, 一些使用人口比较少的民族语言已经处于濒临状态,民族语言文字的消亡,直接危及民族文化的繁荣和发展,抢救和保护民族语言文字资源,是繁荣和发展民族文化的重要前提,而且刻不容缓. 随着计算机和网络技术以及数字化的普及和应用,为抢救和保护少数民族语言文字资源提供了重要的科技手段, 将少数民族语言文字引入计算机和互联网,将有效提升少数民族语言文字学习、应用和研究水平,实现各民族语言文字和平等权利,使少数民族在科技领域不被边缘化, 从而促进各民族语言文字的繁荣和发展,维护民族平等团结,巩固边疆繁荣稳定. 本文主要介绍数字化技术在少数民族语言研究中的应用。例如少数民族语言输入法包括编码字符集、输入技术、字形描述与生成、存储、编辑、排版、字频统计等,同时语言信息处理技术包括机器翻译、信息检索、信息提取、文本校对、文本生成、文本分类、自动摘要以及文字识别和语音识别等应用领域。 1 数字化技术在少数民族语言保护方面的优点 随着科技的进步和计算机技术的发展,尤其是数字摄影、三维信息获取、虚拟现实、多媒体与宽带网络技术研究与应用的发展,为少数民族语言的保护提供了一种可靠且有效的方法———数字化保护[2]。 数字化技术在少数民族语言保护的本质是以记录保存的方式对少数民族语言进行保护。通过对其相关的文字、图像、声音、视频及三维数据信息进行数字化保存、组织和存储来实现对其的保护。 数字化保护所得的资料主要是硬盘或者光盘,它有以下几个优点: ①几乎不占用物理空间;②可以方便灵活地进行图文声像与数字信息的双向转换;③可以方便自如地对资料进行修改、编辑、排序、移位、备份、删除和增补;④可以高速、便捷地通过网络进行传输;⑤可以方便、迅速地进行检索、调用。所以语言便于实现数据化、网络化,而且可以用来兴建具有互动性与开放性的大型图、文、声、像数字博物馆,并通过互联网的方式实现全球资源共享。 2 少数民族语言的输入法 2.1编码 编码就是在认知上是解释传入的刺激的一种基本知觉的过程。技术上来说,这是一个复杂的、多阶段的转换过程,从较为客观的感觉输入(例如光、声)到主观上有意义的体验。 2.1.1字符编码 字符编码、字集码是字符集由编码组成。编码是指将某一字符序列对应到一指定集合中某一东西(例如可能显示为一种自然数序列,交流所用的字母表或者字音表),再将其对应到另一个给定的 HYPERLINK /wiki/%E9%9B%86%E5%90%88 \o 集合 集合中的其它东西,如一个自然 HYPERLINK /wiki/%E6%95%B0 \o 数 数序列、8位字节或者电脉冲,以便于文本在计算机中存储和通过通信网络的发送。常见的例子包括将拉丁字母表编码成摩斯电码和 HYPERLINK /wiki/ASCII \o ASCII ASCII。其中, HYPERLINK /wiki/ASCII \o ASCII ASCII将字母、数字和其它符号编号,并用7位元的二进制来表示这个整数。通常会额外使用一个扩充的位元,以便于以8位字节的方式存储。 在计算机技术发展的早期,如 HYPERLINK /wiki/ASCII \o ASCII ASCII(1963年)和 HYPERLINK /wiki/EBCDIC \o EBCDIC EBCDIC(1964年)这样的字符集逐渐成为标准。但这些字符集的局限很快就变得明显,于是人们开发了许多方法来扩展它们。对于支持包括东亚 HYPERLINK /wiki/CJK \o CJK CJK字符家族在内的写作系统的要求能支持更大量的字符,并且需要一种系统而不是临时的方法实现这些字符的编码。 2.1.2简单字符集 按照惯例,人们认为字符集和字符编码是同义词,因为使用同样的标准来定义提供什么字符并且这些字符如何编码到一系列的代码单元(通常一个字符一个单元)。由于历史的原因, HYPERLINK /wiki/MIME \o MIME MIME和使用这种编码的系统使用术语字符集来表示用于将一组字符编码成一系列八位字节数据的整个系统。 2.1. 由 HYPERLINK /wiki/%E7%B5%B1%E4%B8%80%E7%A2%BC \o 统一码 统一码和 HYPERLINK /wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86 \o 通用字符集 通用字符集所构成的现代字符编码模型则没有跟从简单字符集的观点。

文档评论(0)

sfkl + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档