从ANSI到UniCode.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从ANSI到UniCode

从ANSI 到Unicode 与其说是我来写这篇文章,倒不如说是我拷贝、整理这篇文章,因为文章中的很多内容 都是从网上直接复制下来的,进行了一些小的修改。整理文章的初始 目的是希望自己对 ANSI 和 Unicode 有一个了解,因为过去的时候只是有个印象,但真是不明白是怎么回事儿。整理 完了之后的现在,则希望自己也能为别人提供一些帮助吧。 整理之后,才对字符编码形成这样一个整体观念:ANSI 和 Unicode 是两个不同的体系; ANSI 的发展大致是 ASCII→扩展字符集→GB2312→GBK→DBCS;Unicode 的大致分成两个层 次,一个是定义(UCS-2 和 UCS-4),一个是存储(UTF8 和 UTF16);Unicode 是为了解决 ANSI 中双字节字符编码混乱而提出的解决方案。其是这一切的发生和发展真的是根据当时的需要 而产生的,都是遇到了不同的问题而产生的解决方法。 ANSI :American National Standards Institute 美国国家标准学会 ASCII :American Standard Code for Information Interchange ,美国信息互换标准代码 Unicode or UCS : Universal Multiple-Octet Coded Character Set UCS-2: Universal Character Set coded in 2 octets UCS-4: Universal Character Set coded in 4 octets UTF: Unicode Transformation Format 【字符(character or word)】与 【字节(octet)】的区别 【字符】是文化上的概念,例如英语的字母 a 是一个字符,汉语的一个汉字 (例如 “汉”) 也是一个字符。 【字节】是计算机存储的概念,是一个 8 位 (bit)的存储单元,每个 bit 位上的值只能是 0 或 1。1 个字节=8 位,2 个字节=16 位。 ANSI 〖ASCII 编码〗 八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。其中的编号从 0 开始的 32 种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要 做一些约定的动作。遇上 0x0A, 终端就换行,遇上 0x07, 终端就向人们嘟嘟叫,于是就把这 些 0x20 以下的字节状态称为控制码 。所有的空格、标点符号、数字、大小写字母分别用 连续的字节状态表示,一直编到了第 127 号,这样计算机就可以用不同字节来存储英语的文 字了。ANSI 将这种编码的方法叫做 【ASCII 编码】。 〖扩展字符集〗 但是很多国家用的不是英文,他们的字母里有许多是 ASCII 码里没有的,为了可以在计 算机保存他们的文字,他们决定采用 127 号之后的空位来表示这些新的字母、符号,还加 入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态 255。从 128 到 255 这一页的字符集被称 【扩展字符集】。 〖GB2312〗 等中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有 6000 多 个常用汉字需要保存呢。但是这难不倒智慧的中国人民,我们不客气地把那些 127 号之后的 奇异符号们直接取消掉, 规定:一个小于 127 的字符的意义与原来相同,但两个大于 127 的 字符连在一起时,就表示一个汉字,前面的一个字节 (称之为高字节)从 0xA1 用到 0xF7, 后面一个字节 (低字节)从 0xA1 到 0xFE,这样我们就可以组合出大约 7000 多个简体汉字 了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的 【全 角字符】,而原来在 127 号以下的那些就叫 【半角字符】了。中国人民看到这样很不错,于 是就把这种汉字方案叫做 【GB2312 】。GB2312 是对 ASCII 的中文扩展。 〖GBK 标准〗 但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,特 别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 G

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档