1位、字节、字符、字符集.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1位、字节、字符、字符集 1位、字节、字符、字符集 PAGE / NUMPAGES 1位、字节、字符、字符集 1、位( bit):数据存储的最小单位。每个二进制数字 0 或者 1 就是 1 个 位; 2、字节 (byte):8 个位构成一个字节;即: 1byte(字节 )=8bit(位);1 KB = 1024 B(字节 );1 MB = 1024 KB;(2^10 B)1 GB = 1024 MB;(2^20 B)1 TB = 1024 GB;(2^30 B)3、字符 (char):a、A、中、 +、* 、の 均表示一个字符;一般 utf-8 编码下,一个汉字字符占用 3 个字节;一般 gbk 编码下,一个汉字字符占用 2 个字节; 4、字符集:即各种各个字符的集合,也就是说哪些汉字,字母( A、 b、 c)和符号(空格、引号 ..)会被收入标准中; 5、编码:规定每个 “字符 ”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做 “编码”。(其实际是对字符集中字符进行编码,即:每个字符用二进制在计算中表示存储); 通俗的说:编码就是按照规则对字符进行翻译成对应的二进制数,在计算器中运行存储,用户看的时候(比如浏览器),在用对应的编码解析出来用户能看懂的; ( 1)标准 ASCii字符集:有 96 个打印字符,和 32 个控制字符组成;一共96+32=128个; 用 7 位二进制数来对每 1 个字符进行编码;而由于 7 位还还不够 1 个字 节,而电脑的内部常用字节来用处理,每个字节中多出来的最高位用 0 替代; 0 000 00000 0 1111111..127;从 0127,来表示 128 个 ACSii编码;比 如:字符 A--在内部用 0100 0001(65)来表示;字符 a在内部用 0110 0001 97)来表示;注意: 10在计算器内部是没有编码的,因为它是字符串,而不是单个字符。可以分别对 1,0 字符编码存储; ( 2)扩展 ASCii字符集:将标准的 ASCii最高位 1,得到十进制代码 128 255(1 000 00001 111 1111);所以字符集一共有 0255,256 个字符; 3)gb2312 字符集 :所有汉字字符在计算机内部采用 2 个字节来表示,每个字节的最高位规定为 1【正好与标准 ASCii字符(最高位是 0)不重叠,并兼容】,不支持繁体字; 1 / 3 所以: gb2312 表示汉字的编码为: [129--255][129--255](两个字节,每个字节最高位是 1);小于 127 的字符,与 ASCii编码相同; 4)gbk 字符集: gb2312 的扩充,兼容 gb2312,除了收录 gb2312 所有的字符外,还收录了其他不常见的汉字、繁体字等; gbk 中字符是一个或两个字节,单字节字符 00--7F(0127)这个区间和 ASCII是一样的; 双字节字符的第一个字节是在 81--FE(129--254)之间。通过这个可以判断是单字节还是双字节; 即:在 gbk 字符编码,如果第一个字节是 128 的,则再往后找一个字节,组成汉字;如果第一个字节 128,则表示的是一个单字节(此时和 ASCII是一样的); 5)Unicode 字符集:容纳世界上所有语言字符和符号的集合;(以及对应的二进制数字); Unicode 只是一个编码规范,目前实际实现的 unicode 编码只要有三种: UTF-8,UCS-2和 UTF-16,三种 unicode 字符集之间可以按照规范进行转换。 6)utf-8 编码: UTF-8(8-bitUnicodeTransformationFormat )是一种针对 Unicode 的可变长度字符编码,也是一种前缀码。它可以用来表示 Unicode 标准中的任何字符,且其编码中的第一个字节仍与 ASCII兼容,这使得原来处理ASCII字符的软件无须或只须做少部分修改,即可继续使用。因此,它逐渐成为 电子邮件、网页及其他存储或发送文字的应用中,优先采用的编码。 对于 UTF-8编码中的任意字节 B,如果 B 的第一位为 0,则 B 独立的表示一个字符 (ASCII码); 如果 B 的第一位为 1,第二位为 0,则 B 为一个多字节字符中的一个字节(非 ASCII字符 ); 如果 B 的前两位为 1,第三位为 0,则 B 为两个字节表示的字符中的第一个字节; 2 / 3 如果 B 的前三位为 1,第四位为 0,则 B 为三个字节表示的字符中的第一个字节; 如果 B 的前四位为 1,第五位为 0,则 B 为四个字节表示的字符中的第一个字节; 因此,对 UTF-8编码中的任意字节,根据第一位,可判断是否为 ASCII字符;根据前二位

文档评论(0)

152****7128 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档