字符编码体系与多语言支持.pdfVIP

  • 0
  • 0
  • 约1.94千字
  • 约 4页
  • 2025-12-25 发布于北京
  • 举报

常见字符编码

◼常用字符集分类:

➢ASCII及其扩展字符集

作用:表语英语及西欧语言。

位数:ASCII使用7位表示,能表示128个字符;其扩展使用8位表示,表示256个字符。

范围:ASCII从00到7F,ASCI扩展从00到FF。

➢ISO-8859-1字符集

作用:扩展ASCII,表示西欧、希腊语等。

位数:8位

范围:从00到FF,兼容ASCII字符集。

➢GB2312字符集

作用:国家简体中文字符集,兼容ASCII。

位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率

汉字。

范围:高字节从A1到F7,低字节从A1到FE。将高字节和低字节分别加上0XA0即可得到

编码。

➢BIG5字符集

作用:统一繁体字编码。

位数:使用2个字节表示,表示13053个汉字。

范围:高字节从A1到F9,低字节从40到7E,A1到FE。

➢GBK字符集

英语、西欧语ASCII,ISO-8859-1MBCS多字节

简体中文GB2312MBCS多字节

繁体中文BIG5MBCS多字节

简繁中文GBKMBCS多字节

各国语言UNICODE,UCSDBCS宽字节

UTF-8:采用变长字节(1ASCII,2希腊字母,3汉字,4平面符号)表示,网络传输即使

错了一个字节,不影响其他字节,而双字节只要一个错了,其他也错了。UTF-8最多

可用到6个字节。

UTF-16:采用2字节,Unicode中不同部分的字符都同样基于现有的。这是为了

便于转换。从0×0000到0×007F是ASCII字符,从0×0080到0×00FF是ISO-8859-1

对ASCII的扩展。希腊字母表使用从0×0370到0×03FF的代码,斯拉夫语使用从

0×0400到0×04FF的代码,使用从0×0530到0×058F的代码,希伯来语使用

从0×0590到0×05FF的代码。、和韩国的象形文字(总称为CJK)占用了

从0×3000到0×9FFF的代码;由于0×00在c语言及操作系统文件名等中有特殊意

义,故很多情况下需要UTF-8编码保存文本,去掉这个0×00。

◼优缺点:

➢UTF-8、UTF-16和UTF-32都可以表示有效编码空间(U-U+10FFFF)内的

所有Unicode字符。

➢使用UTF-8编码时ASCII字符只占1个字节,效率比较高,适用于拉丁字符较多

的场合以节省空间。对于大多数非拉丁字符(如中文和日文)来说,UTF-16所需

空间最小,每个字符只占2个字节。

➢WindowsNT内核是Unicode(UTF-16),采用UTF-16编码在调用系统API时无需

转换,处理速度也比较快。采用UTF-16和UTF-32会有BigEndian和LittleEndian

文档评论(0)

1亿VIP精品文档

相关文档