1位、字节、字符、字符集.docxVIP

下载本文档

1
0
约2.13千字
约 3页
2021-11-28 发布于山东
举报
版权申诉

1位、字节、字符、字符集.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1位、字节、字符、字符集 1位、字节、字符、字符集 PAGE / NUMPAGES 1位、字节、字符、字符集 1、位（ bit）：数据存储的最小单位。每个二进制数字 0 或者 1 就是 1 个位； 2、字节 (byte)：8 个位构成一个字节；即： 1byte(字节 )=8bit(位)；1 KB = 1024 B(字节 )；1 MB = 1024 KB;(2^10 B)1 GB = 1024 MB;(2^20 B)1 TB = 1024 GB;(2^30 B)3、字符 (char)：a、A、中、 +、* 、の均表示一个字符；一般 utf-8 编码下，一个汉字字符占用 3 个字节；一般 gbk 编码下，一个汉字字符占用 2 个字节； 4、字符集：即各种各个字符的集合，也就是说哪些汉字，字母（ A、 b、 c）和符号（空格、引号 ..）会被收入标准中； 5、编码：规定每个 “字符 ”分别用一个字节还是多个字节存储，用哪些字节来存储，这个规定就叫做 “编码”。（其实际是对字符集中字符进行编码，即：每个字符用二进制在计算中表示存储）；通俗的说：编码就是按照规则对字符进行翻译成对应的二进制数，在计算器中运行存储，用户看的时候（比如浏览器），在用对应的编码解析出来用户能看懂的；（ 1）标准 ASCii字符集：有 96 个打印字符，和 32 个控制字符组成；一共96+32=128个；用 7 位二进制数来对每 1 个字符进行编码；而由于 7 位还还不够 1 个字节，而电脑的内部常用字节来用处理，每个字节中多出来的最高位用 0 替代； 0 000 00000 0 1111111..127；从 0127，来表示 128 个 ACSii编码；比如：字符 A--在内部用 0100 0001（65）来表示；字符 a在内部用 0110 0001 97）来表示；注意： 10在计算器内部是没有编码的，因为它是字符串，而不是单个字符。可以分别对 1,0 字符编码存储；（ 2）扩展 ASCii字符集：将标准的 ASCii最高位 1，得到十进制代码 128 255（1 000 00001 111 1111）；所以字符集一共有 0255,256 个字符； 3）gb2312 字符集 :所有汉字字符在计算机内部采用 2 个字节来表示，每个字节的最高位规定为 1【正好与标准 ASCii字符（最高位是 0）不重叠，并兼容】，不支持繁体字； 1 / 3 所以： gb2312 表示汉字的编码为： [129--255][129--255](两个字节，每个字节最高位是 1)；小于 127 的字符，与 ASCii编码相同； 4）gbk 字符集： gb2312 的扩充，兼容 gb2312，除了收录 gb2312 所有的字符外，还收录了其他不常见的汉字、繁体字等； gbk 中字符是一个或两个字节，单字节字符 00--7F（0127）这个区间和 ASCII是一样的；双字节字符的第一个字节是在 81--FE（129--254）之间。通过这个可以判断是单字节还是双字节；即：在 gbk 字符编码，如果第一个字节是 128 的，则再往后找一个字节，组成汉字；如果第一个字节 128,则表示的是一个单字节（此时和 ASCII是一样的）； 5）Unicode 字符集：容纳世界上所有语言字符和符号的集合；（以及对应的二进制数字）； Unicode 只是一个编码规范，目前实际实现的 unicode 编码只要有三种： UTF-8,UCS-2和 UTF-16，三种 unicode 字符集之间可以按照规范进行转换。 6）utf-8 编码： UTF-8（8-bitUnicodeTransformationFormat ）是一种针对 Unicode 的可变长度字符编码，也是一种前缀码。它可以用来表示 Unicode 标准中的任何字符，且其编码中的第一个字节仍与 ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或发送文字的应用中，优先采用的编码。对于 UTF-8编码中的任意字节 B，如果 B 的第一位为 0，则 B 独立的表示一个字符 (ASCII码)；如果 B 的第一位为 1，第二位为 0，则 B 为一个多字节字符中的一个字节(非 ASCII字符 )；如果 B 的前两位为 1，第三位为 0，则 B 为两个字节表示的字符中的第一个字节； 2 / 3 如果 B 的前三位为 1，第四位为 0，则 B 为三个字节表示的字符中的第一个字节；如果 B 的前四位为 1，第五位为 0，则 B 为四个字节表示的字符中的第一个字节；因此，对 UTF-8编码中的任意字节，根据第一位，可判断是否为 ASCII字符；根据前二位