- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                
UltraEdit 引出的字符编码问题        .txt 曾经拥有的不要忘记;不能得到的更要珍惜;属于自己 
的不要放弃;已经失去的留作回忆。                UltraEdit 引出的字符编码问题        (2007-05-24 16:26:25) 
转载 
 最近用  ultraedit  编辑  python  文件,遇到    web 显示中文乱码的问题,后来搜索终于找到了 
解决办法,感谢       wewe80 提供的资料,转贴如下: 
 UltraEdit 的问题及其编码 
一.关于各种编码文件标记头 
各种编码文件开头 
UTF-8 以  EF BB BF 
UTF-16  以  FE FF(big-endian) FF FF(little-endian) 
UNICODE以 FF FE 
一.各种编码对于中文: 
各种编码对于中文: 
ASCII   中文  2 个字节;英文:       1 个字节 
UNICODE中文  2  个字节;英文:       2 个字节 
UTF-8   中文  3 个字节;英文:       1 个字节    ( 开头有  2 个字节表示长度       ) 
二.中国的各种编码表示 
ASCII      中国 --D6 D0 B9 FA      A--61 
UTF-8      中国 --E4 E8 AD E5 9B BD 61 A--61 
UNICODE   中国 --FF FE 2D 4E FD 56  A--61 00 
三.关于     UltraEdit 的问题 
1. 用 UNICODE编辑可以看到,       默认的存储是      ansi  。用记事本的另存为即可看到其真实的存储 
格式。 
2.UltraEdit 打开  utf-8 会默认的用     UNICODE方式来显示,我们要转化为             ASCII 显示,这样 
就能看到真实的       utf 编码了 . 在 ASCII  编辑模式下,会将        utf-8 编码当作    gb2312 来显示。 
3. 关于各种转化     . 
对于  UNICODE/UTF-8转  UTF-8 (UNICODE编辑),我们可以看到中文字符,            但是却看不到      UTF-8 
的  16 进制表示,看到的都是         UNICODE,因为 UltraEdit 会做内部转换。 
对于   UNICODE/ASCII/UTF-8-8 转  UTF-8-8 (ASCII 编辑),我们可以看到       UTF-8-8 的真实   16 
进制表示,但是却看不到中文字符的正常显示。 
4. 关于   中国 a  中国中国(  6 中文 1 英文) 
倘不出问题,  用 ASCII  转 UTF-8-8   (UNICODE编辑),这时在      UNICODE中看到的文字的        16 进制 
编码是    UNICODE格式,因为是      UNICODE编辑的。但是保存却是          UTF-8 格式保存的。例如: 
中国 a  中国中国     6  中文 1 英文 
用 ASCII 转 UTF-8-8(ASCII 编辑 ) 用 UltraEdit 打开选择所有文字看到的是           14 字节,大小却 
为  16 字节,因为多了两个字节          FF FE ;保存文件之后看到的却是           19 字节,看样子      UTF-8-8 
的 EF BB BF 的标记头并没有存储哦。 
四.关于联通在记事本中的错误显示问题 
在一些早期的      UTF-8 文件中并不要求一定要用          EF BBBF 的标记头,而是根据         UTF-8-8 的数据 
特征来判断。所以出现了联通和联的错误显示,因为将其认为是                           UTF-8 格式编码。其检测里 
面所有字符是否遵循某种规则,而不仅仅是几个。所以联想就可以被正确识别,因为                                    想 不 
遵循  UTF-8 规则,而“联通”两个字都遵循              UTF-8 规则 . 
谈谈  Unicode 编码,简要解释       UCS、UTF、BMP、BOM等名词 
这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚 
的概念,增进知识,类似于打             RPG游戏的升级。整理这篇文章的动机是两个问题: 
问
                 原创力文档
原创力文档 
                        

文档评论(0)