- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中俄网络语言编码接口问题的研究
【摘 要】研究中俄文字符号在网络上的应用规律和特点,通过GB2312 和UTF-8编码技术的转换技术解决中俄网络语言编程编码接口问题,结合 屮俄文语法特点,使用Java语言进行Web方式的屮俄网络语言编码接口 问题,提出解决方案。
【关键词】中俄文;编码;接口; Java
0引言
研究屮俄文互译和接口标准关系,能得屮国科技企业面向俄语世界的 网络贸易工作都能达到更好的经济效果。本文针对核心中俄文互通问题, 整合与集成不同文化背景的网络符号互译与信息交换的标准接口问题,研 究中俄文字符号在网络上的应用规律和特点,注意与计算机搜索引擎技术 的协调配合,提高木研究的持续适应能力,形成具有统一性的国际协议。 本项目实施相对长期的客户支持,能促进屮国对俄语系21国家的电子商 务活动,激励大众创业和万众创新,最终实现中俄电子商务合作的国际市 场化应用[1]。
1编码分析
中俄网络语言编码接口技术,通过合作研究GB2312和UTF-8编码技 术的转换技术解决屮俄网络语言编程编码接口问题,无论是俄文网站,还 是中文网站,都能确保文字符号在,中、俄两个国家适用的操作平台上正 常显示运行。
1.1编码集
完成GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间 的互联互通,制定统一的信息标准。由于缺乏编码方案来解决屮俄这两种 不同语言体系在计算机语言中表示的问题,从而导致一直以来中国的商品 基本上通过欧美、日、韩等国家转销至俄语世界,原因在于他们拥有通往 俄语国家的信息交流通道,UTF-8编码接轨较早。为了通过网络技术,给 中俄企业沟通、交流、发布及获取信息提供直接的渠道,双方需要有设计 全新的编码模型方案解决中俄这两种不同语言体系在计算机语言中表示 的问题。
1. 1. 1 GB2312
GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行 于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和 国际化的软件都支持GB2312。基本集共收入汉字6763个和非汉字图形字 符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一 个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。同时, GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语 西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计 算机处理需要,它所收录的汉字已经覆盖中国大陆99. 75%的使用频率。
1.1.2 Unicode
Unicode是为了解决传统的字符编码方案的局限而产生的,例如 IS08859-1 (Latin-1,是西欧常用字符)所定义的字符虽然在不同的国家
中广泛地使用,可是在不同国家间却经常出现不兼容的情况。很多传统的 编码方式都有一个共同的问题,即允许电脑处理双语环境(通常使用拉丁 字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多 种语言混合的情况)。Unicode为每种语言屮的每个字符设定了统一并且唯 一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。儿 乎所有电脑系统都支持基本拉丁字母,并各口支持不同的其他编码方式。
Unicode为了和它们相互兼容,其首256字符保留给IS08859-1所定义的 字符,使既有的西欧语系文字的转换不需特别处理;并且把大量相同的字 符重复编到不同的字符码屮去,使得III有纷朵的编码方式得以和Unicode 编码间互相直接转换,而不会丢失任何信息。在文字处理方面,Unicode 为每一个字符而非字形定义唯一的代码(即一个整数)。以一种抽象的方 式(即数字)來处理字符,并将视觉上的演绎工作(例如字体大小、外观 形状、-字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文 字处理器oUNICODE用2个字节编码,它通过增加一个高字节对ISOLatin-1 字符集进行扩展,可以用ASCTT表示的字符使用UNICODE并不高效,因为 UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫 无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称 为通用转换格式,即 UTF (Universal Transformation Format)o 常见的 UTF 格式有:UTF-7, UTF-7. 5, UTF-8, UTF-16,以及 UTF-32。UTF-8 用 1 到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁 体及其它语言(如英文、日文、韩文)。
1. 2中俄文字差别 1.2. 1中文双字节
GB2312和UTF-8编码技术转换的研发工作,实现异构系统之间的互联 互通,制定统一的信息标准。在两国架设的服务器设备中同时嵌入中俄
文档评论(0)