- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从ANSI到UniCode
从ANSI 到Unicode
与其说是我来写这篇文章,倒不如说是我拷贝、整理这篇文章,因为文章中的很多内容
都是从网上直接复制下来的,进行了一些小的修改。整理文章的初始 目的是希望自己对 ANSI
和 Unicode 有一个了解,因为过去的时候只是有个印象,但真是不明白是怎么回事儿。整理
完了之后的现在,则希望自己也能为别人提供一些帮助吧。
整理之后,才对字符编码形成这样一个整体观念:ANSI 和 Unicode 是两个不同的体系;
ANSI 的发展大致是 ASCII→扩展字符集→GB2312→GBK→DBCS;Unicode 的大致分成两个层
次,一个是定义(UCS-2 和 UCS-4),一个是存储(UTF8 和 UTF16);Unicode 是为了解决 ANSI
中双字节字符编码混乱而提出的解决方案。其是这一切的发生和发展真的是根据当时的需要
而产生的,都是遇到了不同的问题而产生的解决方法。
ANSI :American National Standards Institute 美国国家标准学会
ASCII :American Standard Code for Information Interchange ,美国信息互换标准代码
Unicode or UCS : Universal Multiple-Octet Coded Character Set
UCS-2: Universal Character Set coded in 2 octets
UCS-4: Universal Character Set coded in 4 octets
UTF: Unicode Transformation Format
【字符(character or word)】与 【字节(octet)】的区别
【字符】是文化上的概念,例如英语的字母 a 是一个字符,汉语的一个汉字 (例如 “汉”)
也是一个字符。
【字节】是计算机存储的概念,是一个 8 位 (bit)的存储单元,每个 bit 位上的值只能是 0
或 1。1 个字节=8 位,2 个字节=16 位。
ANSI
〖ASCII 编码〗
八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。其中的编号从 0 开始的 32
种状态分别规定了特殊的用途,一但终端、打印机遇上约定好的这些字节被传过来时,就要
做一些约定的动作。遇上 0x0A, 终端就换行,遇上 0x07, 终端就向人们嘟嘟叫,于是就把这
些 0x20 以下的字节状态称为控制码 。所有的空格、标点符号、数字、大小写字母分别用
连续的字节状态表示,一直编到了第 127 号,这样计算机就可以用不同字节来存储英语的文
字了。ANSI 将这种编码的方法叫做 【ASCII 编码】。
〖扩展字符集〗
但是很多国家用的不是英文,他们的字母里有许多是 ASCII 码里没有的,为了可以在计
算机保存他们的文字,他们决定采用 127 号之后的空位来表示这些新的字母、符号,还加
入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态
255。从 128 到 255 这一页的字符集被称 【扩展字符集】。
〖GB2312〗
等中国人们得到计算机时,已经没有可以利用的字节状态来表示汉字,况且有 6000 多
个常用汉字需要保存呢。但是这难不倒智慧的中国人民,我们不客气地把那些 127 号之后的
奇异符号们直接取消掉, 规定:一个小于 127 的字符的意义与原来相同,但两个大于 127 的
字符连在一起时,就表示一个汉字,前面的一个字节 (称之为高字节)从 0xA1 用到 0xF7,
后面一个字节 (低字节)从 0xA1 到 0xFE,这样我们就可以组合出大约 7000 多个简体汉字
了。在这些编码里,我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了,连在
ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的 【全
角字符】,而原来在 127 号以下的那些就叫 【半角字符】了。中国人民看到这样很不错,于
是就把这种汉字方案叫做 【GB2312 】。GB2312 是对 ASCII 的中文扩展。
〖GBK 标准〗
但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法在这里打出来,特
别是某些很会麻烦别人的国家领导人。于是我们不得不继续把 G
您可能关注的文档
最近下载
- 妊娠期间孕妇心理护理.pptx VIP
- 2025山东威海热电集团有限公司招聘37人考试备考题库及答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试参考题库附答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试备考试题及答案解析.docx VIP
- 2025山东威海热电集团有限公司招聘37人笔试模拟试题及答案解析.docx VIP
- 伤口造口失禁专科护士.docx VIP
- 伤口造口专科护士试题 造口试题 .pdf VIP
- 施工脚手架通用规范完整版2024.pdf VIP
- 临床执业医师妇产科学复习指导.pdf VIP
- NY∕T 391-2021 绿色食品 产地环境质量.pdf
文档评论(0)