- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
指导书之3-汉字点阵字库的建立与提取
软件课程设计指导书系列之三
汉字点阵字库建立与提取
华中科技大学电子科学与技术系
2008 年 12 月 25 日
目 录
一、课程设计目的 3
二.总体设计要求 3
三、相关知识说明 3
四、模块划分及数据结构说明7
五、调试及测试要求8
六、参考资料 8
一、课程设计目的
1、通过本课题的实现,学习文献的检索方法;
2 、 了解汉字区位码的定义,掌握一级汉字编码的规则;
3、 掌握软件开发模式,结构模块化分析,程序设计流程;
4 、学会使用当前 C++ 的开发工具软件;
5、初步培养需求分析,软件测试、调试的能力;
6、提高对 C 语言文件系统、循环语言、条件语言的应用掌握;
二.总体设计要求
1、采用文本菜单界面,鼓励采用图形菜单界面;
2 、程序可以实现选择不同的 WINDOWS 字体(宋体,楷体,黑体等);
3、程序可以实现选择存取点阵字库的文件(*.BIN);
4 、程序可以实现选择生成不同的点阵大小(16,20 ,24 ,32,48 );
5、程序可以实现输入生成字库的 DEMO 字数(1~3000);
6、程序可以显示版本内容,包括论文作者、学号及编译日期;
7、字库的文件根据设计的编码规则进行存储点阵数据;
8、在点阵提取过程中,在程序窗口左侧显示 WINDOWS 原矢量字模,窗口右侧使用提取后
的点阵数据显示点阵字模;
9、鼓励自行增加新功能;
三、相关知识说明
1、汉字输出码
i. 汉字无论字形如何变化、笔划多少都可以写在方块中
ii. 一个方块可以看作 m 行 n 列的矩阵,称为点阵,汉字的点阵字形在计算机中称
为字模
iii. 汉字经过点阵的数字化转换成数字,称为汉字的输出码
iv. 一个字节有 8bit,m*n 点阵的阵列可以用 m*n/8 个字节表示
v. 存储空间根据选择点阵的不同而不同,点阵的行列数越多汉字越精细,但存储
空间越多
2 、汉字编码的种类
汉字编码中现在主要用到的有三类,包括 GBK,GB2312和Big5
a、 GB2312 又称国标码:
由国家标准总局发布,1981 年 5 月 1 日实施,通行于大陆。新加坡等地也使用此编码。
它是一个简化字的编码规范,当然也包括其他的符号、字母、日文假名等,共 7445 个图形字
符,其中汉字占 6763 个。我们平时说 6768 个汉字,实际上里边有 5 个编码为空白,所以总
共有 6763 个汉字。
GB2312 规定“对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表
示”,习惯上称第一个字节为“高字节”,第二个字节为“低字节”。GB2312 中汉字的编码
范围为,第一字节 0xB0-0xF7(对应十进制为 176-247),第二个字节 0xA0-0xFE(对应十进制
为 160-254)。
GB2312 将代码表分为 94 个区,对应第一字节(0xa1-0xfe);每个区 94 个位(0xa1-0xfe),
对应第二字节,两个字节的值分别为区号值和位号值加 32 (2OH ),因此也称为区位码。01-09
区为符号、数字区,16-87 区为汉字区(0xb0-0xf7),10-15 区、88-94 区是有待进一步标准
化的空白区。
b、 Big5 又称大五码:
主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范
围从 0X81-0XFE (即129-255),共 126 种。第二个字节的范围不连续,分别为 0X40-
0X7E (即64-126 ),0XA1-0XFE (即161-254),共 157 种。
c、 GBK:
是 GB2312 的扩展,是向上兼容的,因此 GB2312 中的汉字的编码与 GBK 中汉字的相同。
另外,GBK 中还包含繁体字的编码,它与 Big5 编码之间的关系我还没有弄明白,好像是不一
致的。GBK 中每个汉字仍然包含两个字节,第一个字节的范围是 0x81-0xFE(即129-254),
第二个字节的范围是 0x40-0xFE(即64-254)。GBK 中有码位2394
文档评论(0)