- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、西文字符编码 1. ASCII码 ASCII码,即美国标准信息交换码(American Standard Code for Information Interchange),使用7个二进位对字符进行编码。 基本的ASCII字符集共有128个字符 95个可打印字符(常用字母、数字、标点符号) 33个控制字符(不可直接显示或打印) 特殊字符的ASCII码 空格(32)、A(65)、a(97)、0(48) 下面为ASCII代码表: 标准ASCII字符集及其码表 定义方式: 用8位二进制数位表示一个字符的扩充 二-十进制 交换码. 特点: 每个字符对应一个字节,共256种 说明: 有很多编码没有使用,保留做为扩充 (2)第二部分:一级常用汉字,共3755个, 按汉语拼音排列 (3)第三部分:二级常用汉字,共3008个, 按偏旁部首排列 汉字共6763个 字符共7445个 区位码: GB2312-80是一个二维代码表,有94行、94列, 汉字在代码表中的位置用它所处的行号、列号表示。 例如: “大”字的区号20,位号83, 区位码是20 83 用2个字节表示为: 01010011 国标交换码 (国标码): 问题:信息通信中,汉字的区位码与通信使用的控制码(00H~1FH)发生冲突。 解决方案:为了避免汉字区位码与通信控制码的冲突,每个汉字的区号和位号必须分别加上32。得到的代码称为汉字的“国标交换码” 例如: “大”字的区号20,位号83 区位码:20 83 国标交换码:52 115 (+32) 机内码: 问题:文本中的汉字与西文字符经常是混合在一起使用的,汉字信息如不予以特别的标识,它与单字节的标准ASCII码就会混淆不清。 解决方法:使表示GB2312汉字的两个字节的最高位(b7)都置为“1”。这种汉字编码,称为GB2312汉字的“机内码” 。 例如:“大”字 区位码:20 83 二进制表示为01010011 国标交换码:52 115 (+32) 二进制表示为01110011 机内码:180 243 (+128) 二进制表示为11110011(B4F3) 问题:GB2312-80只有6763个汉字,使用时功能不够。 解决方法:1995年发布GBK,全称为《汉字内码扩展规范》GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。 组成:共收入21886个汉字和图形符号(21003个汉字,883个图形符号) GBK汉字内码扩充规范 GBK编码区分三个部分: 汉字区(21003个汉字)、图形符号区、用户自定义区 GBK每一个字符都采用双字节表示 总体编码范围为:8140H—FEFEH,共23940个码位; 首字节范围:81H—FEH(二进制最高位为1); 尾字节范围:40H—FEH(二进制最高位可以为0或1); 目的:统一的多文本处理环境,实现所有字符在同一字符集中统一编码 途径:UCS:ISO/IEC 10646 (通用多8位编码字符集) Unicode:统一码或联合码,与UCS完全等同的工业标准 优点:编码空间极大(4个字节),能容纳足够多的各种字符集(13亿字符) 缺点:4字节的字符编码使存储空间浪费严重 克服:UCS-2是双字节编码,共有字符49194个,其中包括: 欧洲及中东地区使用的拉丁字母、音节文字 各种标点符号、数学符号、技术符号、几何形状、箭头及其他符号 中、日、韩(CJK)统一编码的汉字 GB18030-2000编码标准在GB2312和GBK编码标准的基础上进行了扩充,采用单字节、双字节和四字节三种方式对字符编码,因此该标准的汉字有27000多个。包括全部中、日、韩统一字符集和CJK汉字扩充的所有字符。 BIG5码是台湾、香港等地使用的汉字繁体的编码标准,它用双字节进行编码。BIG5收录了13461个汉字和符号。 几种汉字编码的对比 人工输入:通过键盘、手写笔或语音输入方式输入字符 自动输入:将纸介质上的文本通过识别技术自动转换为文字的编码 (1)键盘输入 键盘输入编码 : 汉字字数很多,无法与键盘上的键一一对应,因此必须使用一个或几个键来表示汉字,这就需要对汉字进行编码。 汉字输入编码的分类 拼音编码:如:智能ABC, 紫光拼音 缺点:同音字引起的重码多,需增加选择操作 字形编码:将汉字的字形分解归类而给出的编码方法,重码少、输入速度
您可能关注的文档
最近下载
- 2024-2025学年四川省成都市第七中学高一(上)月考物理试卷(10月)(含答案).docx VIP
- 育婴员职业守则课件.pptx VIP
- 蔬菜生产技术课程标准.docx VIP
- 2025中考语文现代文阅读总复习-第1部分 专题12:记叙文阅读之主旨把握(讲义)(教师版).docx VIP
- 硅铁冶炼培训课件.pptx VIP
- 水土保持工程监理规划.pdf VIP
- 政务云平台 第4部分:系统部署和迁移要求_地方标准编制说明.pdf
- DB37T-政务云平台监管指标体系及编制说明.pdf VIP
- 高中物理必修二第一章检试测卷.doc VIP
- DB37T 4394.4—2024政务云平台 第4部分:系统部署和迁移要求.pdf VIP
文档评论(0)