- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
字符、编码、Unicode
字符的编码历史
摩尔斯电码
计算机二进制表达的字符集
ASCII
EBCDIC
…
计算机之前的时代
摩尔斯电码将字母表和简单的标点符号进行了编码化
盲文是另外一种类型的编码
远在DOS时代
计算机主要应用于英文和拉丁语系
ASCII美国信息交换标准编码
编码范围 0~127(单字节编码)
不满足其他国家地区特殊字符
IBM的解决方案
使用ASCII码表没有使用的128~255的编码空间
在计算机的BIOS中间提供不同国家语言的不同编码CodePage
也叫做OEM Code Page.
IBM的解决方案
解决了不同国家对于DOS下显示字符的问题
问题:不能交换数据。显示希腊语言的机器如果需要显示日文,就必须要考虑更换Rom芯片
目前存在的各种代码页
OEM (IBM PC) 代码页
437 — 最初的 IBM PC 代码页,实现了扩展ASCII字符集
737 — 希腊语
850 — “多语言 (Latin-1)” (西欧语言)
852 — “斯拉夫 (Latin-2)” (中欧及东欧语言)
855 — 西里尔(Cyril)字母
857 — 土耳其语
858 — 带欧元符号的“多语言”
860 — 葡萄牙语
861 — 冰岛语
863 — 法语 加拿大英语
865 — 北欧
866 — 西里尔(Cyril)字母
869 — 希腊语
目前存在的各种代码页(二)
中日韩语言代码页
932 — 日文
936 — 简体中文(GBK)
949 — 韩文
950 — 繁体中文(大五码)
目前存在的各种代码页(三)
Windows (ANSI)代码页
874 — 泰文字母
1250 — 东欧拉丁字母
1251 — 古斯拉夫语
1252 — 西欧拉丁字母 ISO-8859-1.
1253 — 希腊语
1254 — 土耳其语
1255 — 希伯来语
1256 — 阿拉伯语
1257 — 巴尔
1258 — 越南
1254 — 土耳其语
Sample
使用C#做的字符到不同编码的转换Sample
主要的中文编码标准
GB2312
1981年实施,中国国家标准
中国和新加坡采用
6763个汉字,包括拉丁字母,希腊字母和日文假名、
GBK
汉字内码扩展规范,由微软制定,最早实现于Windows95中文版
微软的CP936通常被视为等同GBK
主要的中文编码标准
GB 13000.1-93
等同于Unicode 1.1标准
GBK收录了GB13000.1-93全部字符但是编码方式不同。
GB 18030-2005
目前最新的字符集
全面兼容GBK
和UTF-8相同采用多字节编码。
更新至 Unicode 4.1标准(2000年标准兼容Unicode3.0)
主要日文编码标准
ShiftJIS
Shift_JIS是一个日本电脑系统常用的编码表。它能容纳全角及半角拉丁字母、平假名、片假名、符号及日语汉字。
它被命名为Shift_JIS的原因,是它在放置全角字符时,要避开原本在0xA1-0xDF放置的半角假名字符。
在微软及IBM的日语电脑系统中,即使用了这个编码表。这个编码表称为CP932。
JIS-X0201 JIS-X 0208
Unicode
志在一统全球语言文字编码
官网www.U
最新标准Unicode
现行6.2
准备中
标准目的在于为每一个可用的字符设置一个唯一编号,没有涉及任何编码方式,字长等。
Unicode 6.x
早在5.x 版本,Unicode已经开始使用超过 0xFFFF的值为字符进行编码
/versions/Unicode6.0.0/
主要新增区块
0840..085F
Mandaic
1BC0..1BFF
Batak
AB00..AB2F
Ethiopic Extended-A
11000..1107F
Brahmi
16800..16A3F
Bamum Supplement
1B000..1B0FF
Kana Supplement
1F0A0..1F0FF
Playing Cards
1F300..1F5FF
Miscellaneous Symbols And Pictographs
1F600..1F64F
Emoticons
1F680..1F6FF
Transport And Map Symbols
1F700..1F77F
Alchemical Symbols
2B740..2B81F
CJK Unified Ideographs Extension D
Emoticons
絵文字 in Japanese
/wiki/Unicode6.0%E3%81%AE%E6%90%BA%E5%B8%AF%E9%9B%BB%E8%A9%B1%E3%81%AE%E7%B5%B5%E6%96%87%E5%
文档评论(0)