- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
认识汉字字符码(汉字编码)
认识汉字字符码(汉字编码)(台湾)曾士熊目录认识汉字字符码1一、字符与编码2(一)何谓字符2(二)何谓编码2(三)字节的演变3二、单字节编码4(一)七位字节编码4(二)八位字节编码6三、多字节延伸编码7(一)ISO/IEC 2022的字符码格式8(二)ISO/IEC 2022的字符码延伸编码结构9四、多字节内码编码12五、中文字的属性与特性14(一)中文字的属性14(二)中文字的特性15六、汉字字符集的编码17(一)汉字字符编码的限制17(二)汉字字符的编码18七、中文内码概观20(一)标签识别式中文内码20(二)逸出顺序切换式中文内码21(三)ASCII字符化中文内码22(四)多语文整合式内码23(五)字符码竞合现象23八、中文交换码概观24九、Big5和Big5E25(一)发展过程25(二)Big5-2003的编码结构与字符集26(三)Big5E新增字符集29十、中文标准交换码(CNS 11643)29(一)发展过程29(二)编码格式与编码结构30(三)字面的指定与切换31(四)EUC-CSIC34十一、Unicode与UCS(ISO/IEC 10646)35(一)缘起35(二)编码结构与字符集36(三)UTF-16与UTF-839十二、GB 2312、GBK与GB 1803041(一)GB 2312系列标准41(二)GBK43(三)GB 1803043参考文献44一、字符与编码(一)何谓字符 字符(character)是人类语文的最基本单位,例如:中文字、英文字母、阿拉伯数字、标点符号等。而字符集(character set)则是指某种语文的全部字符(例如:英文的字符)或部份字符(例如:中文的字符)所形成的集合。 字符也是计算机输入、储存、打印、显示和处理文数字信息的基本单位。任何计算机都必须具备内建的字符集,才能和人类沟通以及处理文数字信息。计算机所使用的字符,可区分为图形字符和控制字符两类:图形字符(graphic characters)指的是可以被显示在荧光幕上或是被打印在报表纸上,用以构成文数字信息或计算机语言的字符。就英文字符集而言,所包含的图形字符为 52个大小写英文字母、10个阿拉伯数字和一些标点符号,总数还不到100个。但就汉字字符集而言,所包含的图形字符至少是成千上万的中文字。控制字符(control characters)则代表特定的处理功能,可驱使计算机或通信设备执行特定程序,以进行特定处理或表现特定动作,例如:驱使荧光幕上的游标回到行首并换行、驱使打印机换行或跳页、开始或终止数据的传输等。原则上,控制字符不具备可显示或可打印的图形。 (二)何谓编码 就微观角度而言,计算机的硬件是由数以亿计、极为微小(宽度甚至还不到十万分之一公分)的晶体管开关所建构成的。这些开关只能有「开(on)」和「关 (off)」两种状态,习惯上分别以“1”和“0”来表示,因此计算机内部可以看做是二进制数字的世界。换言之,在计算机系统内部,不论是用以组成程序的指令 或任何形式的数据(包括:文字、图形、影像、声音、动画等),全都是以二进制形式表现(驱使晶体管开关开或关)的电磁信号。 由于硬件的限制,所有字符都必须先转换成二进制数字才能被计算机所接受和处理。这种二进制数字又称为二进码(binary code)。二进码的任何一个数字(digit),因其值必须是“1”或“0”,所以被称做位(bit,为“binary digit”取第一个字母和最后两个字母所组成的新英文单字)。针对特定的字符集,分别赋予每个字符一个对应的二进码,称为编码。而对应于个别字符的二进码则称为字符码(character code)。为了减少字符码的书写位数,习惯上将字符码从二进制数字转换成等值的十进制数字或十六进制数字。【注:十六进制每个数字的值为0至15,其中10到15以大写字母A至F表示之;在本文中,于数字之后附加h表示十六进制。】 字符编码可大致分成下列四个步骤:首先建立字符集,也就是搜集和整理所需要的图形字符和控制字符。将字符集的所有图形字符加以排序。图形字符的次序先后,决定字符码的相对大小,并影响未来文数字信息以字符码大小排序的结果。通常是将图形字符依据某些惯 例和字符属性加以排序,例如:英文字母先排大写由“A”到“Z”、再排小写由“a”到“z”,阿拉伯数字则由“0”排到“9”等。至于控制字符,则不一定 需要排序。依据字符集大小决定位组长度。字符码通常安排成固定长度(即位数)。就长度为m的二进码而言,共有2m个不同的位值组合,每个位值组合为一个码位(code position),所有这些 码位的集合称为编码空间。假设二进码的长度为3个位,则其编码空间为集合{000, 001, 010, 011, 100, 101, 110, 111},共23=8个 码
您可能关注的文档
最近下载
- 2024年凯度O2O白皮书.pdf VIP
- 外教社新编英语语法教程(第6版)PPT课件(试用版)Unit 15.pptx VIP
- 2025年江西司法警官职业学院单招职业技能测试题库及完整答案1套.docx
- 《化工企业生产过程异常工况安全处置准则》专题培训.pptx VIP
- 4.1 我们需要呼吸(说课稿)-四年级上册科学大象版.docx VIP
- 财务工作移交清单模板.docx VIP
- 最新部编版小学一年级语文上册第三单元测试卷(附答案) .pdf VIP
- (人教版2024)九年级化学 跨学科实践活动《微型空气质量“检测站”的组装与使用》课件.pptx
- 小儿急腹症的诊断和治疗.ppt VIP
- 2025年军工产品标准化大纲.pptx VIP
文档评论(0)