- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C语言汉字写入问题及Unicode优势
C语言汉字写入问题及Unicode优势
HYPERLINK /blog/ \l m=0t=1c=fks_083066080084082075080087074071085087080069080083094 \o 默认分类 默认分类 2009-06-13 09:22:13 阅读552 评论2 ??字号:大中小?订阅
常用的字符编码有以下三种:1、ASCII 只支持英文,全部为8位2、DBCS? 支持英文和中文,但中文需要两个字节(16位)3、UNICODE 支持英文和中文,英文和中文都需要两个字节
ASCII是DOS时代的,无法支持中文。DBCS是Win9x支持的字符集。UNICODE是win2k和xp支持的字符集。而汉字的编码目前有GB2312-1980和GB18030-2000,GB2312就是DBCS类型的汉字编码,GB18030就是UNICODE的汉字编码,当然GB18030兼容GB2312,也就是说GB18030也支持DBCS的字符处理方式。虽然GB18030是2000年后强制执行的国家标准,但目前使用最多的还是GB2312编码,而且GB2312也足够处理你所用到的汉字了。还有GBK编码是GB2312的增强版。
这里我仅支持GB2312。由于GB2312是中国大陆制定的标准,所以繁体中文并不在GB2312的编码中,如果你的程序需要支持繁体中文,则还需要处理Big5编码。其实也很简单。
下面说一下在C中如何处理GB2312编码的汉字。以VC6.0为例,如果声明变量的类型为wchar_t则是UNICODE编码,如果是char则是DBCS编码比如我的一个函数声明是:void Justify (HDC hdc, PTSTR pText, RECT * prc, int iAlign)??? 其中的pText是PTSTR类型,PTSTR在WINNT.H中有两个定义(WINNT.H中的这段代码我删掉了中间无关的部分)#ifdef? UNICODEtypedef LPWSTR PTSTR, LPTSTR;//如果是UNICODE编码,则定义PTSTR为LPWSTR类型#elsetypedef LPSTR PTSTR, LPTSTR;//如果是不是UNICODE编码,则定义PTSTR为LPSTR类型#endif
LPSTR定义为CHAR的指针LPSWSTR定义为WCHAR的指针CHAR定义为char类型WCHAR定义为wchar_t类型而wchar_t定义为unsigned short类型,它是16位,两个字节,无符号短整数
百度两字的ASCII码分别为:
百:B0 D9 度:B6 C8
如果要向test_ascii.txt写入百字,则可以这样写代码:
#includestdio.h
main(){
FILE *fp1;
int ascii1,ascii2;
fp1=fopen(test_ascii.txt,wb+);
ascii1=0xB0;
ascii2=0xD9;
fwrite(ascii1,1,1,fp1);
fwrite(ascii2,1,1,fp1);
fclose(fp1);
}
我发现TurboC中:一个int型变量和一个汉字一样,都是占两个字节的,那我们不就可以用一个int型变量来存储一个汉字吗?答案是可以的:
这样写代码:
#includestdio.h
main(){
FILE *fp1;
int ascii;
fp1=fopen(test_ascii.txt,wb+);
ascii=0xD9*256 + 0xB0;
fwrite(ascii,2,1,fp1);
fclose(fp1);
}
关于汉字的ASCII码还可以看我的另一篇博客
HYPERLINK /sunsee/blog/item/5db6ab82e7c20194f703a60d.html URL编码学习(汉字ASCII查询)
一、什么是Unicode
先从ASCII说起,ASCII是用来表示英文字符的一种编码规范。每个ASCII字符占用1个字节,因此,ASCII编码可以表示的最大字符数是255(00H—FFH)。其实,英文字符并没有那么多,一般只用前128个(00H—7FH,最高位为0),其中包括了控制字符、数字、大小写字母和其它一些符号。而最高位为1的另128个字符(80H—FFH)被称为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其它符号。
这种字符编码规则显然用来处理英文没有什么问题。但是面对中文、阿拉伯文等复杂的文字,255个字符显然不够用。
于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB2312—80”,它是和ASCII兼容的一种编
文档评论(0)