- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
每个软件开发人员应该无条件掌握的知识
每个软件开发人员应该无条件掌握的知识!
——Unicode 伟大的创想!
相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如бЇЯАзЪСЯ、�?????????
还记得 HTTP 中的 Accept-Charset、Accept-Encoding、Accept-Language、Content-Encoding、
Content-Language 等消息头字段?这些就是接下来我们要探讨的。
目录:
1.基础知识
2.常用字符集和字符编码
2.1. ASCII 字符集编码
2.2. GBXXXX 字符集编码
2.3. BIG5 字符集编码
3.伟大的创想Unicode
3.1.UCS UNICODE
3.2.UTF-32
3.3.UTF-16
3.4.UTF-8
4.Accept-Charset/Accept-Encoding/Accept-Language/Content-Type/Content-Encoding/Content-L
anguage
参考文献进一步阅读
1.基础知识
计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、汉字等字符是二
进制数转换之后的结果。通俗的说,按照何种规则将字符存储在计算机中,如a用什么表示,
称为编码;反之,将存储在计算机中的二进制数解析显示出来,称为解码,如同密码学
中的加密和解密。在解码过程中,如果使用了错误的解码规则,则导致a解析成b或者乱码。
字符集(Charset ):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,
包括各国家文字、标点符号、图形符号、数字等。
字符编码(Character Encoding ):是一套法则,使用该法则能够对自然语言的字符的一个集
合(如字母表或音节表),与其他东西的一个集合(如号码或电脉冲)进行配对。即在符号
集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号集合(一
般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)
不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此字
符编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。
2.常用字符集和字符编码
常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、GB18030 字符集、Unicode
字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别
和存储各种文字。
2.1. ASCII 字符集编码
ASCII (American Standard Code for Information Interchange ,美国信息交换标准代码)是基于
拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本EASCII 则可以勉强
显示其他西欧语言。它是现今最通用的单字节编码系统(但是有被 Unicode 追上的迹象),
并等同于国际标准ISO/IEC 646。
ASCII 字符集:主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字
符、阿拉伯数字和西文符号)。
ASCII 编码:将ASCII 字符集转换为计算机可以接受的数字系统的数的规则。使用7 位(bits)
表示一个字符,共128 字符;但是7 位编码的字符集只能支持128 个字符,为了表示更多的
欧洲常用字符对ASCII 进行了扩展,ASCII 扩展字符集使用8 位(bits)表示一个字符,共256
字符。ASCII 字符集映射到数字编码规则如下图所示:
图1 ASCII 编码表
图2 扩展ASCII 编码表
ASCII 的最大缺点是只能显示26 个基本拉丁字母、阿拉伯数目字和英式标点符号,因此只能
用于显示现代美国英语(而且在处理英语当中的外来词如 naïve、café、élite 等等时,所有
重音符号都不得不去掉,即使这样做会违反拼写规则)。而EASCII 虽然解决了部份西欧语言
的显示问题,但对更多其他语言依然无能为力。因此现在的苹果电脑已经抛弃ASCII 而转用
Unicode。
2.2. GBXXXX 字符集编码
计算机发明之处及后面很长一段时间,只用应用于美国及西方一些发达国家,ASCII 能够很
好满足用户的需求。但是当天朝也有了计算机之后,为了显示中文,必须设计一套编码规则
用于将汉字转换
您可能关注的文档
- 杆式泵采油技术应用效果评价_刘俊芹.pdf
- 李烈钧督赣期间的得失探析.pdf
- 杏树芽接技术要点.pdf
- 李白究竟睡了什么床.pdf
- 材料力学--十.doc
- 杜仲带芽茎段的快速繁殖.pdf
- 杜梅兰.pdf
- 条条块块的学问.pdf
- 杭州钢之盟_仓储管理信息系统.pdf
- 杭州经济型酒店发展策略.pdf
- 第12课 大一统王朝的巩固 课件(20张ppt).pptx
- 第17课 君主立宪制的英国 课件.pptx
- 第6课 戊戌变法 课件(22张ppt).pptx
- 第三章 物态变化 第2节_熔化和凝固_课件 (共46张ppt) 人教版(2024) 八年级上册.pptx
- 第三章 物态变化 第5节_跨学科实践:探索厨房中的物态变化问题_课件 (共28张ppt) 人教版(2024) 八年级上册.pptx
- 2025年山东省中考英语一轮复习外研版九年级上册.教材核心考点精讲精练(61页,含答案).docx
- 2025年山东省中考英语一轮复习(鲁教版)教材核心讲练六年级上册(24页,含答案).docx
- 第12课近代战争与西方文化的扩张 课件(共48张ppt)1.pptx
- 第11课 西汉建立和“文景之治” 课件(共17张ppt)1.pptx
- 唱歌 跳绳课件(共15张ppt内嵌音频)人音版(简谱)(2024)音乐一年级上册第三单元 快乐的一天1.pptx
文档评论(0)