[工学]C语言汉字写入问题及Unicode优势.doc

下载文档 降价啦

0
0
约8.05千字
约 10页
2018-02-14 发布于浙江
举报
版权申诉
保障服务

[工学]C语言汉字写入问题及Unicode优势.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[工学]C语言汉字写入问题及Unicode优势

C语言汉字写入问题及Unicode优势默认分类 2009-06-13 09:22:13 阅读552 评论2 ??字号：大中小?订阅常用的字符编码有以下三种：1、ASCII 只支持英文，全部为8位2、DBCS? 支持英文和中文，但中文需要两个字节（16位）3、UNICODE 支持英文和中文，英文和中文都需要两个字节 ASCII是DOS时代的，无法支持中文。DBCS是Win9x支持的字符集。UNICODE是win2k和xp支持的字符集。而汉字的编码目前有GB2312-1980和GB18030-2000，GB2312就是DBCS类型的汉字编码，GB18030就是UNICODE的汉字编码，当然GB18030兼容GB2312，也就是说GB18030也支持DBCS的字符处理方式。虽然GB18030是2000年后强制执行的国家标准，但目前使用最多的还是GB2312编码，而且GB2312也足够处理你所用到的汉字了。还有GBK编码是GB2312的增强版。这里我仅支持GB2312。由于GB2312是中国大陆制定的标准，所以繁体中文并不在GB2312的编码中，如果你的程序需要支持繁体中文，则还需要处理Big5编码。其实也很简单。下面说一下在C中如何处理GB2312编码的汉字。以VC6.0为例，如果声明变量的类型为wchar_t则是UNICODE编码，如果是char则是DBCS编码比如我的一个函数声明是：void Justify (HDC hdc, PTSTR pText, RECT * prc, int iAlign)??? 其中的pText是PTSTR类型，PTSTR在WINNT.H中有两个定义（WINNT.H中的这段代码我删掉了中间无关的部分）#ifdef? UNICODEtypedef LPWSTR PTSTR, LPTSTR;//如果是UNICODE编码，则定义PTSTR为LPWSTR类型#elsetypedef LPSTR PTSTR, LPTSTR;//如果是不是UNICODE编码，则定义PTSTR为LPSTR类型#endif LPSTR定义为CHAR的指针LPSWSTR定义为WCHAR的指针CHAR定义为char类型WCHAR定义为wchar_t类型而wchar_t定义为unsigned short类型，它是16位，两个字节，无符号短整数百度两字的ASCII码分别为：百：B0 D9 度：B6 C8 如果要向test_ascii.txt写入百字，则可以这样写代码： #includestdio.h main(){ FILE *fp1; int ascii1,ascii2; fp1=fopen(test_ascii.txt,wb+); ascii1=0xB0; ascii2=0xD9; fwrite(ascii1,1,1,fp1); fwrite(ascii2,1,1,fp1); fclose(fp1); } 我发现TurboC中：一个int型变量和一个汉字一样，都是占两个字节的，那我们不就可以用一个int型变量来存储一个汉字吗？答案是可以的：这样写代码： #includestdio.h main(){ FILE *fp1; int ascii; fp1=fopen(test_ascii.txt,wb+); ascii=0xD9*256 + 0xB0; fwrite(ascii,2,1,fp1); fclose(fp1); } 关于汉字的ASCII码还可以看我的另一篇博客 URL编码学习（汉字ASCII查询）一、什么是Unicode 　　先从ASCII说起，ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节，因此，ASCII编码可以表示的最大字符数是255（00H—FFH）。其实，英文字符并没有那么多，一般只用前128个（00H—7FH，最高位为0），其中包括了控制字符、数字、大小写字母和其它一些符号。而最高位为1的另128个字符（80H—FFH）被称为“扩展ASCII”，一般用来存放英文的制表符、部分音标字符等等的一些其它符号。　　这种字符编码规则显然用来处理英文没有什么问题。但是面对中文、阿拉伯文等复杂的文字，255个字符显然不够用。于是，各个国家纷纷制定了自己的文字编码规范，其中中文的文字编码规范叫做“GB2312—80”，它是和ASCII兼容的一种编码规范，其实就是利用扩展ASCII没有真正标准化这一点，把一个中文字符用两个扩展ASCII字符来表示，以区分ASCII码部分。　　但是这个方法有问题，最大的问题就是中文的文字编码和扩展ASCII码有重叠。而很多软件利用扩展ASCII码的英文制表符来画表格，这样的软件用到中文系统中，这些表格就会被误认作中