- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
字符编码
版本 修订日期 修订内容 修订人 V0.1 2008-12-1 初始化 V1.0 2008-12-11 第一版 V1.1 2008-12-13 First reported V1.2 2008-12-14 添加ASCII码表 V1.3 2008-12-18 添加code page V1.4 2008-12-23 添加BOM
ASCII
American Standard Code for Information Interchange,美国标准信息交换码。因为计算机只能表示和存储二进制的数据,所以需要对常用的52个字母,阿拉伯数字等字符进行编码,为了便于信息交换,需要一个统一的标准,于是American National Standard Institute(ANSI)制定了这个ASCII码,并于1967年成为美国国家标准,后被ISO(International Standardization Organization)国际标准化组织定为国际标准ISO646。
ASCII属于单字节编码,即使用一个字节(8 bytes)进行编码,因此最多只能表示256个字符。基础的ASCII使用7bits编码,最高位位为0,或者用于奇偶校验。ASCII编码适用于所有的拉丁字母。
0x00 – 0x1F:为控制字符
ASCII编码可以满足美国的拉丁字母需求,但是不能满足其他语种的需求,例如中日韩的象形文字,所以导致下面编码的出现。
具体定义如下:
十六进制 字符 意义 十六进制 字符 意义 0x00 NULL 空字符 0x10 0x01 SOH Start of head 0x11 0x02 STX Start of text 0x12 0x03 ETX End of text 0x13 0x04 EOT End of Transmission 0x14 0x05 ENQ Enquiry 0x15 0x06 ACK Acknowledge 0x16 0x07 BELL 铃声 0x17 0x08 BS Backspace 0x18 0x09 TAB Horizontal tab 0x19 0x0A LF Line Feed 0x1A 0x0B VT Vertical tab 0x1B 0x0C 0x1C 0x0D CR Carriage return 0x1D 0x0E SO Shift out 0x1E 0x0F SI Shift in 0x1F
UCS
国际标准ISO 10646定义了通用字符集 (Universal Character Set, UCS) UCS是所有其他字符集标准的一个超集它保证与其他字符集是双向兼容的就是说如果你将任何文本字符串翻译UCS格式然后再翻译回原编码你不会丢失任何信息UCS 包含了用于表达所有已知语言的字符不仅包括拉丁语希腊语斯拉夫语希伯来语阿拉伯语亚美尼亚语和乔治亚语的描述还包括中文日文和韩文这样的象形文字以及平假名片假名孟加拉语旁遮普语果鲁穆奇字符(Gurmukhi)泰米尔语印.埃纳德语(Kannada)Malayalam,泰国语老挝语汉语拼音(Bopomofo)Hangul,Devangari,Gujarati,Oriya, Telugu 以及其他数也数不清的语对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入这些语言包括Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符ISO 10646定义了一个 31 位的字符集然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位 (0x0000 到 0xFFFD)这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10FFFF 这个覆盖了超过 100 万个潜在的未来字符的 21 位的编码空间以外去了ISO 10
文档评论(0)