UltraEdit引出的字符编码问题[参考].pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
UltraEdit 引出的字符编码问题 .txt 曾经拥有的不要忘记;不能得到的更要珍惜;属于自己 的不要放弃;已经失去的留作回忆。 UltraEdit 引出的字符编码问题 (2007-05-24 16:26:25) 转载 最近用 ultraedit 编辑 python 文件,遇到 web 显示中文乱码的问题,后来搜索终于找到了 解决办法,感谢 wewe80 提供的资料,转贴如下: UltraEdit 的问题及其编码 一.关于各种编码文件标记头 各种编码文件开头 UTF-8 以 EF BB BF UTF-16 以 FE FF(big-endian) FF FF(little-endian) UNICODE以 FF FE 一.各种编码对于中文: 各种编码对于中文: ASCII 中文 2 个字节;英文: 1 个字节 UNICODE中文 2 个字节;英文: 2 个字节 UTF-8 中文 3 个字节;英文: 1 个字节 ( 开头有 2 个字节表示长度 ) 二.中国的各种编码表示 ASCII 中国 --D6 D0 B9 FA A--61 UTF-8 中国 --E4 E8 AD E5 9B BD 61 A--61 UNICODE 中国 --FF FE 2D 4E FD 56 A--61 00 三.关于 UltraEdit 的问题 1. 用 UNICODE编辑可以看到, 默认的存储是 ansi 。用记事本的另存为即可看到其真实的存储 格式。 2.UltraEdit 打开 utf-8 会默认的用 UNICODE方式来显示,我们要转化为 ASCII 显示,这样 就能看到真实的 utf 编码了 . 在 ASCII 编辑模式下,会将 utf-8 编码当作 gb2312 来显示。 3. 关于各种转化 . 对于 UNICODE/UTF-8转 UTF-8 (UNICODE编辑),我们可以看到中文字符, 但是却看不到 UTF-8 的 16 进制表示,看到的都是 UNICODE,因为 UltraEdit 会做内部转换。 对于 UNICODE/ASCII/UTF-8-8 转 UTF-8-8 (ASCII 编辑),我们可以看到 UTF-8-8 的真实 16 进制表示,但是却看不到中文字符的正常显示。 4. 关于 中国 a 中国中国( 6 中文 1 英文) 倘不出问题, 用 ASCII 转 UTF-8-8 (UNICODE编辑),这时在 UNICODE中看到的文字的 16 进制 编码是 UNICODE格式,因为是 UNICODE编辑的。但是保存却是 UTF-8 格式保存的。例如: 中国 a 中国中国 6 中文 1 英文 用 ASCII 转 UTF-8-8(ASCII 编辑 ) 用 UltraEdit 打开选择所有文字看到的是 14 字节,大小却 为 16 字节,因为多了两个字节 FF FE ;保存文件之后看到的却是 19 字节,看样子 UTF-8-8 的 EF BB BF 的标记头并没有存储哦。 四.关于联通在记事本中的错误显示问题 在一些早期的 UTF-8 文件中并不要求一定要用 EF BBBF 的标记头,而是根据 UTF-8-8 的数据 特征来判断。所以出现了联通和联的错误显示,因为将其认为是 UTF-8 格式编码。其检测里 面所有字符是否遵循某种规则,而不仅仅是几个。所以联想就可以被正确识别,因为 想 不 遵循 UTF-8 规则,而“联通”两个字都遵循 UTF-8 规则 . 谈谈 Unicode 编码,简要解释 UCS、UTF、BMP、BOM等名词 这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚 的概念,增进知识,类似于打 RPG游戏的升级。整理这篇文章的动机是两个问题: 问

文档评论(0)

肖四妹学教育 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档