字符集与字符编码.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字符集与字符编码 字符集字符编码 ASCII GBXXXX UNICODE 2014/1/7 东北大学 7110312 第 1 页 字符集与字符编码 1 字符集与字符编码 1.1 基础知识 计算机中储存的信息都是用二进制数表示的;而我们在屏幕上看到的英文、 汉字等字符是二进制数转换之后的结果。通俗的说,按照何种规则将字符存储在 计算机中,如a用什么表示,称为 “编码”;反之,将存储在计算机中的二进制 数解析显示出来,称为 “解码”,如同密码学中的加密和解密。在解码过程中, 如果使用了错误的解码规则,则导致a解析成b或者乱码。 字符集(Charset ):是一个系统支持的所有抽象字符的集合。字符是各种 文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 字符编码(Character Encoding):是一套法则,使用该法则能够对自然语 言的字符的一个集合(如字母表或音节表),与其他东西的一个集合(如号码或 电脉冲)进行配对。 即在符号集合与数字系统之间建立对应关系,它是信息处理的一项基本技术。 通常人们用符号集合 (一般情况下就是文字)来表达信息。而以计算机为基 础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。 元件不同状态的组合能代表数字系统的数字,因此字符编码就是将符号转换 为计算机可以接受的数字系统的数,称为数字代码。 1.2 常用字符集和字符编码 第 2 页 字符集与字符编码 常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、GB18030 字符集、Unicode 字符集等。 计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够 识别和存储各种文字。 1.2.1 ASCII 字符集编码 ASCII (American Standard Code for Information Interchange ,美国信息交换标 准代码)是基于拉丁字母的一套电脑编码系统。 它主要用于显 现代英语,而其扩展版本 EASCII 则可以勉强显示其他西欧 语言。 它是现今最通用的单字节编码系统(但是有被 Unicode 追上的迹象),并等 同于国际标准ISO/IEC 646 。 ASCII 字符集:主要包括控制字符(回车键、退格、换行键等);可显示字 符(英文大小写字符、阿拉伯数字和西文符号)。 ASCII 编码:将 ASCII 字符集转换为计算机可以接受的数字系统的数的规则。 使用 7 位 (bits )表示一个字符,共 128 字符;但是 7 位编码的字符集只能支持 128 个字符,为了表示更多的欧洲常用字符对 ASCII 进行了扩展,ASCII 扩展字符集 使用 8 位(bits )表示一个字符,共 256 字符。 ASCII 的最大缺点是只能显 26 个基本拉丁字母、阿拉伯数目字和英式标 点符号,因此只能用于显示现代美国英语(而且在处理英语当中的外来词如 naïve 、 café、élite 等等时,所有重音符号都不得不去掉,即使这样做会违反拼写规则)。 而 EASCII 虽然解决了部份西欧语言的显示问题,但对更多其他语言依然无能为 力。因此现在的苹果电脑已经抛弃ASCII 而转用 Unicode 。 1.2.2 GBXXXX 字符集编码 第 3 页 字符集与字符编码 计算机发明之初及后面很长一段时间,只用应用于美国及西方一些发达国家, ASCII 能够很好满足用户的需求。 但是当天朝也有了计算机之后,为了显示中文,必须设计一套编码规则用于 将汉字转换为计算机可以接受的数字系统的数。 天朝专家把那些 127 号之后的奇异符号们(即EASCII )取消掉,规定:一

文档评论(0)

小蜗牛 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档