- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉字点阵字库的建立与提取 汉字点阵的重要性 汉字输出码 汉字无论字形如何变化、笔划多少都可以写在方块中 一个方块可以看作m行n列的矩阵,称为点阵,汉字的点阵字形在计算机中称为字模 汉字经过点阵的数字化转换成数字,称为汉字的输出码 一个字节有8bit,m*n点阵的阵列可以用m*n/8个字节表示 存储空间根据选择点阵的不同而不同,点阵的行列数越多汉字越精细,但存储空间越多 汉字点阵阵列 点阵的分辨率 点阵的放大 汉字编码的种类 GB2312编码 1、GB2312是一个简体中文字符集的中国国家标准,由中国国家标准总局发布,1981年5月1日实施。 GB 2312通行于大陆、新加坡等地。几乎所有的中文系统和国际化的软件都支持GB 2312。 它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共7445个图形字符,其中汉字占6763个。我们平时说6768个汉字,实际上里边有5个编码为空白,所以总共有6763个汉字 GB2312汉字编码规则 GB2312规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。 GB2312将代码表分为94个区 ,对应第一字节 ;每个区94个位,对应第二字节。 GB2312字符集构成一个94行、94列的二维表,行号称为区号,列号称为位号,每一个汉字或符号在码表中的位置用它所在的区号和位号来表示。 区位码 为了处理与存储的方便,每个汉字的区号和位号在计算机内部分别用一个字节来表示。例如,“学”字的区号为49,位号为07,它的区位码即为4907,用2个字节的二进制数表示为:00000111 用十六进制数表示即为3107H 汉字交换码 区位码无法用于汉字通信,因为它可能与通信使用的控制码(00H~1FH)(即0~31)发生冲突。ISO2022规定每个汉字的区号和位号必须分别加上32(即二进制,经过这样的处理而得的代码称为国标交换码,简称交换码,因此,“学”字的国标交换码计算为: ? -------------------------------? 用十六进制数表示即为5127H。 汉字内码 由于文本中通常混合使用汉字和西文字符,汉字信息如果不予以特别标识,就会与单字节的ASCII码混淆。此问题的解决方法之一是将一个汉字看成是两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位都为1。这种高位为1的双字节汉字编码即为GB2312汉字的机内码,简称为内码。 因此,“学”字的机内码为:10100111 用16进制表示即为D1A7H。 GB2312编码表 区号 字数 字符类别 01 94 一般符号 02 72 顺序号码 03 94 拉丁字母 04 83 日文假名 05 86 Katakana 06 48 希腊字母 07 66 俄文字母 08 63 汉语拼音符号 09 76 图形符号 10-15 备用区 16-55 3755 一级汉字,以拼音为序 56-87 3008 二级汉字,以部首笔划为序 88-94 备用区 Big5编码 2、Big5又称大五码,主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范围从0X81-0XFE(即129-255),共126种。第二个字节的范围不连续,分别为0X40-0X7E(即64-126),0XA1-0XFE(即161-254),共157种。 GBK编码 3、GBK是GB2312的扩展,是向上兼容的,因此GBK中的汉字的编码与GB2312中汉字的相同。另外,GBK中还包含繁体字的编码。GBK中每个汉字仍然包含两个字节,第一个字节的范围是0x81-0xFE(即129-254),第二个字节的范围是0x40-0xFE(即64-254)。GBK中有码位23940个,包含汉字21003个。 Unicode 编码 随着互联网的迅速发展,进行数据交换的需求越来越大,不同的编码体系越来越成为信息交换的障碍,而且多种语言共存的文档不断增多,单靠ANSI代码页已很难解决这些问题,于是 Unicode 应运而生。 前面提到从ASCII、GB2312、GBK的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。 Unicode 采用两个字节编码体
您可能关注的文档
最近下载
- TCASME-半导体用砂轮划片机技术规范及编制说明.pdf
- 《城市经济学》全套教学课件.pptx
- GB/Z 44267-2024自动化系统与集成 工业数据 数字孪生的可视化元素.pdf
- 2024年山东城市服务职业学院单招职业技能测试题库及答案1套.docx VIP
- 读后续写题型解读 理论点拨——高三英语上学期一轮复习专项.pptx VIP
- invt英威腾CHF100A变频器说明书.pdf VIP
- 最新JingChaDaXue《灭火救援典型案例》期末试卷( A )参考答案.docx
- 商铺买卖合同范本7篇.docx
- 外研版小学英语一年级起点单词表4上.pdf
- 现代交换原理与技术总结.docx VIP
文档评论(0)