文件编码入门：UTF-8和GB.docVIP

下载本文档

11
0
约3.9千字
约 3页
2017-07-16 发布于浙江
举报
版权申诉

文件编码入门：UTF-8和GB.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文件编码入门：UTF-8和GB

移动比联通强？在简体中文Windows系统中： 1.打开记事本，输入“移动”，保存关闭后重新打开，显示的仍然是“移动”两个字。 2.重新新建一个文本文件，输入“联通”，保存关闭后重新打开，显示的就不是“联通”字符了，而是看上去所谓的乱码。的确，这就是一个编码问题。编码问题由来 ASCII 字符需要编码，一套编码体系就形成了一个字符集。美国人最开始只创造了一个字符集，也就是ASCII字符集，ASCII字符集，长8位，首位为0。后来欧洲国家发现128个字符不够用，想利用ASCII后128位，128位还是满足不了所有欧洲国家的要求，就对后128个字符进行分片，形成了iso-8859系列字符集，包括iso-8859-1，iso-8859-2等。 GB2312，GBK和GB18030 计算机来到中国后，又催生了GB2312编码标准，GB2312没有包括繁体字，后又扩展成为GBK（GB13000），GBK是GB2312的“超集”。GB2312和GBK编码标准中，存储方法兼容ASCII，汉字占用两个字节。2000年和2005年又发布了GB18030-2000和GB18030-2005编码标准，存储方法中有单字节、双字节和四字节三种方式对字符编码进行存储。平时说的ANSI编码，都是根据不同的国家和地区而不同的标准。在简体中文系统下，ANSI 编码代表 GBK 编码，在日文操作系统下，ANSI 编码代表 JIS 编码。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。 Unicode 历史介绍省略数百字。。。 Unicode基于通用字符集（Universal Character Set）的标准来发展，是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。（UCS-2用两个字节编码， UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面（plane）。每个平面根据第3个字节分为256行（row），每行有256个码位（cell）。group 0的平面0被称作BMP（Basic Multilingual Plane）。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。每个平面有2^16=65536个码位。） Unicode GBXXX？ Unicode和GBXXX是两套不同的编码标准，字符的码位不相同，如果需要转换，必须要同时知道一个字符在两个编码中的码位。编码简介 UTF-8 Unicode是编码标准，并没有规定字符的存储方式。UTF-8、UTF-16、UTF-32都是将Unicode标准中的码位转换到具体存储数据的方案。总之，任何一个编码标准和具体的字符存储方案是分离的，只要存储后的编码还能映射到原始的编码标准中的码位。为什么不直接用Unicode的UCS-2码位来直接当作字符存储的数据编码呢，一是为了考虑和ASCII的兼容性，二是对属于ASCII的字符用Unicode编码太占用空间。UTF-8就是在这样的情况下诞生了。UTF-8只是一种编码的存储方案，从一个字符的UTF-8编码可以找到唯一对应的Unicode码位。简单介绍下UTF-8，UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下：　　Unicode编码(16进制) ║　UTF-8 字节流(二进制) 　　000000 - 00007F　 ║　0xxxxxxx 　　000080 - 0007FF ║　110xxxxx 10xxxxxx 　　000800 - 00FFFF　 ║　1110xxxx 10xxxxxx 10xxxxxx 　　010000 - 10FFFF　 ║　11110xxx 10xxxxxx 10xxxxxx 10xxxxxx UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符，UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出，4字节模板有21个x，即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。例：“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间，使用用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是：0110 1100 0100 1001，用这个比特流依次代替模板中的x，得到：111001