Python程序设计-清华大学出版社-董付国第4章字符串与正则表达式.pptVIP

  • 62
  • 0
  • 约1.79万字
  • 约 55页
  • 2017-06-01 发布于湖北
  • 举报

Python程序设计-清华大学出版社-董付国第4章字符串与正则表达式.ppt

Python程序设计-清华大学出版社-董付国第4章字符串与正则表达式剖析

第4章 字符串与正则表达式 最早的字符串编码是美因标准信息交换码ASCII,仅对10个数字、26个大写字英文字母、26个小写字英文字母及一些其它符号进行了编码。ASCII采用8位即1个字节,因此最多只能对256个字符进行编码。 随着信息技术的发展,各国的文字都需要进行编码,常见的编码有UTF-8,GB2312,GBK,CP936。 采用不同的编码意味着把同一字符存入文件时,写入的内容可能不同。 UTF-8编码是国际通用的编码,以8位,即1字节表示英语(兼容ASCII),以24位即3字节表示中文及其它语言,UTF-8对全世界所有国家需要用到的字符进行了编码。 GB2312是中国制定的中文编码,使用1个字节表示英语,2个字节表示中文; GBK是GB2312的扩充; CP936是微软在GBK基础上完成的编码; GB2312、GBK和CP936都是使用2个字节表示中文,UTF-8使用3个字节表示中文; Unicode是编码转换的基础。 在Windows平台上,input()函数从键盘输入的字符串默认为GBK编码,而Python程序的字符串编码使用#coding指定,如 #coding=utf-8 #coding:GBK #-*-coding:utf-8 -*- Python 2.7.8环境: s1=中国 s1 \xd6\xd0\xb9\xfa len(s1) 4 s2=s1.dec

文档评论(0)

1亿VIP精品文档

相关文档