- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
python的中文处理
Python 的中文处理
一、使用中文字符
在 python 源码中如果使用了中文字符,运行时会有错误,解决的办法是在源码的开头
部分加入字符编码的声明,下面是一个例子:
#!/usr/bin/env python
# -*- coding: cp936 -*-
Python Tutorial 中指出,python 的源文件可以编码ASCII 以外的字符集,最好的做法是
在#!行后面用一个特殊的注释行来定义字符集:
# -*- coding: encoding -*-
根据这个声明,Python 会尝试将文件中的字符编码转为 encoding 编码,并且,它尽可能的
将指定地编码直接写成 Unicode 文本。
注意,coding:encoding 只是告诉 Python 文件使用了 encoding 格式的编码,但是编辑器
可能会以自己的方式存储.py 文件,因此最后文件保存的时候还需要编码中选指定的 ecoding
才行。
二、中文字符的存储
str = u 中文
str
u\xd6\xd0\xce\xc4
str = 中文
str
\xd6\xd0\xce\xc4
u 中文只是声明 unicode ,实际的编码并没有变。这样子就发生变化了:
str = 中文
str
\xd6\xd0\xce\xc4
str = str.decode(gb2312)
str
u\u4e2d\u6587
更进一步:
s = 中文
s.decode(gb2312)
u\u4e2d\u6587
len(s)
4
len(s.decode(gb2312))
2
s = u 中文
1
len(s)
4
s = 中文test
len(s)
8
len(s.decode(gb2312))
6
s = 中文test ,
len(s)
10
len(s.decode(gb2312))
7
可以看出,对于实际 Non-ASCII 编码存储的字符串,python 可以正确的识别出其中的
中文字符以及中文上下文中的标点符号。
前缀“u ”表示“后面这个字符串“是一个Unicode 字符串”,这仅仅是一个声明,并不
表示这个字符串就真的是 Unicode 了;就好比某正太声称自己已满 18 岁,但实际上他的真
实年龄并不确定,现在体育界年龄造假可不稀罕幺!
那么声明成 u 有什么作用呢?对于 Python 来说,只要你声明某字符串是 Unicode ,它就
会用 Unicode 的一套机制对它进行处理。比方说,做字符串操作的时候会动用到内部的
Unicode 处理函数,保存的时候以 Unicode 字符(双字节)进行保存。等等。显而易见,对
于一个实际上并不是 Unicode 的字符串,做 Unicode 动作的处理,是有可能会出问题的。u
前缀只适用于你的字符串常量真的是Unicode 的情况。
三、中文字符的 IO 操作
用 python 处理字符串很容易,但是在处理中文的时候需要注意一些问题。比如:
a = 我们是 python 爱好者
print a[0]
只能输出“我”字的前半部分,要想输出整个的“我”字还需要:
b = a[0:2]
print b
才行,很不方便,并且当一段文本中同时有中英文如何处理?最好的办法就是转换为
unicode 。像这样:
您可能关注的文档
- PQRASME要求填写的焊接工艺评定报告.doc
- Practical Automatic Determination of Causal Relationships in Software Execution Traces.pdf
- Prediction of Physical, Color, and Sensory Characteristics of Broiler Breasts by VisibleNea.pdf
- Precision Spectroscopy of Pionic Atoms From Pion Mass Evaluation to Tests of Chiral Perturb.pdf
- Predictive Evaluation of Econometric Forecasting Models in Commodity Futures Markets.pdf
- Predicting the Performance of Randomized Parallel Search An Application to Robot Motion Pla.pdf
- PRELIMINARY VERSION A Design Diversity Metric and Analysis of Redundant Systems.pdf
- Present and NearFuture Reflected Light Searches for CloseIn Planets.pdf
- prepared for a special issue of abour Economics,.pdf
- Present and Future Electroweak Precision Measurements and the Indirect Determination of the.pdf
- python访问数据库,SQLAlchemy中的Query方法.doc
- python一些常用方法.doc
- P_mtimes K_n的邻点可区别全色数.pdf
- PⅢ曲线的极大似然估计及应用.pdf
- qDeformed Dynamics and Virial Theorem.pdf
- QCD Interference Effects of Heavy Particles Below Threshold.pdf
- P波多形,PR,PP及RR间期不等心电图的临床意义.pdf
- QOS over MPLS – the Complete Story MPLS中的服务质量(QoS)综述.pdf
- QIACO一种多QoS约束网格任务调度算法.pdf
- QoSAware Mobility Management Solutions and Performance Evaluation.pdf
文档评论(0)