每个软件开发人员应该无条件掌握的知识.pdf

每个软件开发人员应该无条件掌握的知识.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
每个软件开发人员应该无条件掌握的知识

每个软件开发人员应该无条件掌握的知识! ——Unicode 伟大的创想! 相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如бЇЯАзЪСЯ、�????????? 还记得 HTTP 中的 Accept-Charset、Accept-Encoding、Accept-Language、Content-Encoding、 Content-Language 等消息头字段?这些就是接下来我们要探讨的。 目录: 1.基础知识 2.常用字符集和字符编码 2.1. ASCII 字符集编码 2.2. GBXXXX 字符集编码 2.3. BIG5 字符集编码 3.伟大的创想Unicode 3.1.UCS UNICODE 3.2.UTF-32 3.3.UTF-16 3.4.UTF-8 4.Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-L anguage 参考文献进一步阅读 1.基础知识 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二 进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如a用什么表示, 称为编码;反之,将存储在计算机中的二进制数解析显示出来,称为解码,如同密码学 中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致a解析成b或者乱码。 字符集(Charset ):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称, 包括各国家文字、标点符号、图形符号、数字等。 字符编码(Character Encoding ):是一套法则,使用该法则能够对自然语言的字符的一个集 合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号 集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一 般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件) 不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此字 符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。 2.常用字符集和字符编码 常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、GB18030 字符集、Unicode 字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别 和存储各种文字。 2.1. ASCII 字符集编码 ASCII (American Standard Code for Information Interchange ,美国信息交换标准代码)是基于 拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本EASCII 则可以勉强 显示其他西欧语言。它是现今最通用的单字节编码系统(但是有被 Unicode 追上的迹象), 并等同于国际标准ISO/IEC 646。 ASCII 字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字 符、阿拉伯数字和西文符号)。 ASCII 编码:将ASCII 字符集转换为计算机可以接受的数字系统的数的规则。使用7 位(bits) 表示一个字符,共128 字符;但是7 位编码的字符集只能支持128 个字符,为了表示更多的 欧洲常用字符对ASCII 进行了扩展,ASCII 扩展字符集使用8 位(bits)表示一个字符,共256 字符。ASCII 字符集映射到数字编码规则如下图所示: 图1 ASCII 编码表 图2 扩展ASCII 编码表 ASCII 的最大缺点是只能显示26 个基本拉丁字母、阿拉伯数目字和英式标点符号,因此只能 用于显示现代美国英语(而且在处理英语当中的外来词如 naïve、café、élite 等等时,所有 重音符号都不得不去掉,即使这样做会违反拼写规则)。而EASCII 虽然解决了部份西欧语言 的显示问题,但对更多其他语言依然无能为力。因此现在的苹果电脑已经抛弃ASCII 而转用 Unicode。 2.2. GBXXXX 字符集编码 计算机发明之处及后面很长一段时间,只用应用于美国及西方一些发达国家,ASCII 能够很 好满足用户的需求。但是当天朝也有了计算机之后,为了显示中文,必须设计一套编码规则 用于将汉字转换

文档评论(0)

ldj215323 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档