指导书之3-汉字点阵字库的建立与提取.pdfVIP

指导书之3-汉字点阵字库的建立与提取.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
指导书之3-汉字点阵字库的建立与提取

软件课程设计指导书系列之三 汉字点阵字库建立与提取 华中科技大学电子科学与技术系 2008 年 12 月 25 日 目 录 一、课程设计目的 3 二.总体设计要求 3 三、相关知识说明 3 四、模块划分及数据结构说明7 五、调试及测试要求8 六、参考资料 8 一、课程设计目的 1、通过本课题的实现,学习文献的检索方法; 2 、 了解汉字区位码的定义,掌握一级汉字编码的规则; 3、 掌握软件开发模式,结构模块化分析,程序设计流程; 4 、学会使用当前 C++ 的开发工具软件; 5、初步培养需求分析,软件测试、调试的能力; 6、提高对 C 语言文件系统、循环语言、条件语言的应用掌握; 二.总体设计要求 1、采用文本菜单界面,鼓励采用图形菜单界面; 2 、程序可以实现选择不同的 WINDOWS 字体(宋体,楷体,黑体等); 3、程序可以实现选择存取点阵字库的文件(*.BIN); 4 、程序可以实现选择生成不同的点阵大小(16,20 ,24 ,32,48 ); 5、程序可以实现输入生成字库的 DEMO 字数(1~3000); 6、程序可以显示版本内容,包括论文作者、学号及编译日期; 7、字库的文件根据设计的编码规则进行存储点阵数据; 8、在点阵提取过程中,在程序窗口左侧显示 WINDOWS 原矢量字模,窗口右侧使用提取后 的点阵数据显示点阵字模; 9、鼓励自行增加新功能; 三、相关知识说明 1、汉字输出码 i. 汉字无论字形如何变化、笔划多少都可以写在方块中 ii. 一个方块可以看作 m 行 n 列的矩阵,称为点阵,汉字的点阵字形在计算机中称 为字模 iii. 汉字经过点阵的数字化转换成数字,称为汉字的输出码 iv. 一个字节有 8bit,m*n 点阵的阵列可以用 m*n/8 个字节表示 v. 存储空间根据选择点阵的不同而不同,点阵的行列数越多汉字越精细,但存储 空间越多 2 、汉字编码的种类 汉字编码中现在主要用到的有三类,包括 GBK,GB2312和Big5 a、 GB2312 又称国标码: 由国家标准总局发布,1981 年 5 月 1 日实施,通行于大陆。新加坡等地也使用此编码。 它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共 7445 个图形字 符,其中汉字占 6763 个。我们平时说 6768 个汉字,实际上里边有 5 个编码为空白,所以总 共有 6763 个汉字。 GB2312 规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表 示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312 中汉字的编码 范围为,第一字节 0xB0-0xF7(对应十进制为 176-247),第二个字节 0xA0-0xFE(对应十进制 为 160-254)。 GB2312 将代码表分为 94 个区,对应第一字节(0xa1-0xfe);每个区 94 个位(0xa1-0xfe), 对应第二字节,两个字节的值分别为区号值和位号值加 32 (2OH ),因此也称为区位码。01-09 区为符号、数字区,16-87 区为汉字区(0xb0-0xf7),10-15 区、88-94 区是有待进一步标准 化的空白区。 b、 Big5 又称大五码: 主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范 围从 0X81-0XFE (即129-255),共 126 种。第二个字节的范围不连续,分别为 0X40- 0X7E (即64-126 ),0XA1-0XFE (即161-254),共 157 种。 c、 GBK: 是 GB2312 的扩展,是向上兼容的,因此 GB2312 中的汉字的编码与 GBK 中汉字的相同。 另外,GBK 中还包含繁体字的编码,它与 Big5 编码之间的关系我还没有弄明白,好像是不一 致的。GBK 中每个汉字仍然包含两个字节,第一个字节的范围是 0x81-0xFE(即129-254), 第二个字节的范围是 0x40-0xFE(即64-254)。GBK 中有码位2394

文档评论(0)

精品文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档