从ANSI到UniCode.pdfVIP

下载本文档

11
0
约9.34千字
约 6页
2017-07-15 发布于浙江
举报
版权申诉

从ANSI到UniCode.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从ANSI到UniCode

从ANSI 到Unicode 与其说是我来写这篇文章，倒不如说是我拷贝、整理这篇文章，因为文章中的很多内容都是从网上直接复制下来的，进行了一些小的修改。整理文章的初始目的是希望自己对 ANSI 和 Unicode 有一个了解，因为过去的时候只是有个印象，但真是不明白是怎么回事儿。整理完了之后的现在，则希望自己也能为别人提供一些帮助吧。整理之后，才对字符编码形成这样一个整体观念：ANSI 和 Unicode 是两个不同的体系； ANSI 的发展大致是 ASCII→扩展字符集→GB2312→GBK→DBCS；Unicode 的大致分成两个层次，一个是定义(UCS-2 和 UCS-4)，一个是存储(UTF8 和 UTF16)；Unicode 是为了解决 ANSI 中双字节字符编码混乱而提出的解决方案。其是这一切的发生和发展真的是根据当时的需要而产生的，都是遇到了不同的问题而产生的解决方法。 ANSI ：American National Standards Institute 美国国家标准学会 ASCII ：American Standard Code for Information Interchange ，美国信息互换标准代码 Unicode or UCS : Universal Multiple-Octet Coded Character Set UCS-2: Universal Character Set coded in 2 octets UCS-4: Universal Character Set coded in 4 octets UTF: Unicode Transformation Format 【字符(character or word)】与【字节(octet)】的区别【字符】是文化上的概念，例如英语的字母 a 是一个字符，汉语的一个汉字（例如 “汉”）也是一个字符。【字节】是计算机存储的概念，是一个 8 位（bit）的存储单元，每个 bit 位上的值只能是 0 或 1。1 个字节＝8 位，2 个字节＝16 位。 ANSI 〖ASCII 编码〗八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。其中的编号从 0 开始的 32 种状态分别规定了特殊的用途，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作。遇上 0x0A, 终端就换行，遇上 0x07, 终端就向人们嘟嘟叫，于是就把这些 0x20 以下的字节状态称为控制码。所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第 127 号，这样计算机就可以用不同字节来存储英语的文字了。ANSI 将这种编码的方法叫做【ASCII 编码】。〖扩展字符集〗但是很多国家用的不是英文，他们的字母里有许多是 ASCII 码里没有的，为了可以在计算机保存他们的文字，他们决定采用 127 号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态 255。从 128 到 255 这一页的字符集被称【扩展字符集】。〖GB2312〗等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有 6000 多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些 127 号之后的奇异符号们直接取消掉, 规定：一个小于 127 的字符的意义与原来相同，但两个大于 127 的字符连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从 0xA1 用到 0xF7，后面一个字节（低字节）从 0xA1 到 0xFE，这样我们就可以组合出大约 7000 多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的【全角字符】，而原来在 127 号以下的那些就叫【半角字符】了。中国人民看到这样很不错，于是就把这种汉字方案叫做【GB2312 】。GB2312 是对 ASCII 的中文扩展。〖GBK 标准〗但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 G