PHP的 gbk和utf 8程序在技术上的区别.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PHP的 gbk和utf 8程序在技术上的区别

PHP的 gbk与utf 8程序在技术上的区别 如果以下资料看完还不会选择的话,我就不知道该说什么了。我个人使用的是UTF8代码,不过在中国区域内GB通用一些,而UTF8的国际通用一些,使用UTF8并不是就不爱国了。我们能够正常浏览到韩国、日本的网站,其实正常浏览的这些网站都是采用UTF8的格式。 我们打开各大型网站现在普遍采用的都是GB格式,例如百度、QQ、163、dvbbs、bbsxp等,而少部分使用UTF例如google。 对于asp系统gb应该是可以的,我使用UTF格式的原因是采用了PHP系统,在更换空间的时候出现了问题。在PHP配合的MySQL保存格式也分为几种,一般默认就是UTF,所以我就采用了UTF。 再者,非特殊情况下很少有外文操作系统来访问一般的中文站点的,而当你规模大了后在转换也不迟。经常访问中文的外国朋友,他们一定会在自己的操作系统里面安装GB相关的支持插件或补丁的。所以这个不用担心。 废话少说,看后面的资料吧。 GBK与UTF-8的区别 GBK的文字编码是双字节来表示的,即不论中、英文字符均使用双字节来表示,只不过为区分中文,将其最高位都定成1。 至于UTF-8编码则是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8节省空间。 GBK包含全部中文字符; UTF-8则包含全世界所有国家需要用到的字符。 GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准) UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。 比如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,而无需他们下载IE的中文语言支持包。所以,对于英文比较多的论坛,使用GBK则每个字符占用2个字节,而使用UTF-8英文却只占一个字节。 UTF8是国际编码,它的通用性比较好,外国人也可以浏览论坛 GBK是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大~ 对于DZ论坛来说,很多插件都只支持GBK的,如果需要装较多插件的论坛还是用GBK比较好,而对装较少插件且有特殊用户群的论坛用UTF8比较好。 GB2312是GBK的子集,GBK是GB18030的子集 GBK是包括中日韩字符的大字符集合 如果是中文的网站推荐GB2312 GBK有时还是有点问题 为了避免所有乱码问题,应该采用UTF-8,将来要支持国际化也非常方便 UTF-8可以看作是大字符集,它包含了大部分文字的编码。 使用UTF-8的一个好处是其他地区的用户(如香港台湾)无需安装简体中文支持就能正常观看你的文字而不会出现乱码。 词条:UTF8 UTF8并不算是一种电脑编码,而是一种储存和传送的格式,如前所述,每个Unicode/UCS字符都以2或4个bytes来储存,看看以下的比较: 以I am Chinese为例 用ANSI储存:12 Bytes 用Unicode/UCS2储存:24 Bytes+2 Bytes(header) 用UCS4储存:48 Bytes+4 Bytes(header) 以我是中国人为例 用ANSI储存:10 Bytes 用Unicode/UCS2储存:10 Bytes+2 Bytes(header) 用UCS4储存:20 Bytes+4 Bytes(header) 由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,而且也不利于互联网的传输(中文稍为合算一点^_^)。 有见及此,Unicode/UCS的压缩形式-UTF8出现了,套用官方网站的首句话『UTF-8 stands for Unicode Transformation Format-8.It is an octet(8-bit)lossless encoding of Unicode characters.』,由于UTF也适用于编码UCS,故亦可称为『UCS transformation formats(UTF)』 UTF8是以8bits即1Bytes为编码的最基本单位,当然也可以有基于16bits和32bits的形式,分别称为UTF16和UTF32,但目前用得不多,而UTF8则被广泛应用在文件储存和网络传输中。 编码原理 先看这个模板: UCS-4 range(hex.)UTF-8 octet sequence(binary) 0000 0000-0000 007F 0xxxxxxx 0000 0080-0000 07FF 110xxxxx 10xxxxxx 0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000-001F FFFF 11110xxx 10xxxxxx 10x

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档