- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Pandas处理8w条数据,最终生成800w条!
直接先上完整代码吧!
import?pandas?as?pd#?1.?读取数据df?=?pd.read_csv(wgs84?-?副本.csv,header=None)df.columns?=?[列一,列二]##?2.?数据处理与数据写入df1?=?pd.DataFrame()for?index,value?in?enumerate(df[列一]):????y?=?value[10:-3].split(,)????z?=?[[index+1]?+?i.strip().split(?)?for?i?in?y]????df1?=?df1.append(z)df1.columns?=?[行号,经度,维度]##?3.?保存数据df1.to_excel(经纬度.xlsx,index=None)
上述代码共分为3个部分,具体解释如下:
首先是数据读取。由于给我的数据没有标题行,读取时候需要使用header=None参数,同时为了后续处理便利,为数据添加标题行。
接着是数据处理和数据写入。由于每一行数据都在(( ))双括号中,我们需要先提取其中的字符串,然后依据,逗号切分,再依据空格切分,得到每个经纬度数据的列表。同时使用+加号拼接列表,就得到了每行数据,都是3个数据组成的列表嵌套。再使用append()函数,就可以将数据添加到表格中。
最终是数据写入。我们将组织好的数据,最终写入到Excel文件中,不要索引行,因而使用了index=None参数。
为了愈加清楚的呈现这个效果,下面提取其中一条数据为大家讲解此过程。
① 取出其中一条数据
x?=?df[列一][0]x
结果如下:
② 切片+切分字符串
y?=?x[10:-3].split(,)y
结果如下:
留意到上述结果中,存在一些空格,我们后续需要使用strip()函数去除掉。
③ 列表拼接+列表解析式
z?=?[[1]?+?i.strip().split(?)?for?i?in?y]z
结果如下:
④ 使用append函数添加数据
df1?=?pd.DataFrame()df1.append(z)
结果如下:
假如有8w+数据,怎样处理的快呢?
在请教了明佬以后,最终给出如下代码,仅需要十几秒,就可以处理8w+条数据。
import?pandas?as?pdimport?os# 分块、分块、分块chunks?=?pd.read_csv(wgs84.csv,?chunksize=10000)last?=?0for?df?in?chunks:????df.dropna(how=all,?inplace=True)????result?=?[]????for?a,?b?in?df.values:????????if?not?isinstance(a,?str):????????????continue????????if?pd.isna(b):????????????b?=?last+1????????elif?isinstance(b,?str)?and?not?b.isdigit():????????????print(a,?b,?last)????????????continue????????for?p?in?a[10:-3].split(,):????????????result.append((b,?*p.split()))????????if?not?pd.isna(b):????????????last?=?int(b)????df?=?pd.DataFrame(result,?columns=[行号,?经度,?维度])????file?=?result.csv????df.to_csv(file,?index=False,?mode=a,??????????????header=not?os.path.exists(file),?encoding=u8)
8w+的数据,最终生成后,却有800w条,Excel是打不开的。
为了大家能够更快的理解这段代码,有几个学问点,我给大家讲解一下。
① 列表前面加个*号,啥意思?
列表、元组前面加星号,作用是将列表解开成两个独立的参数,传入函数,字典前面加两个星号,是将字典解开成独立的元素作为形参。
x?=?Polygon?((10038?10038)#?不加*号for?i,p?in?enumerate(x[10:-3].split(,)):????print(p.split())#?加*号for?i,p?in?enumera
您可能关注的文档
- logback异步输出日志深入分析.docx
- LSM树在HBase中的应用.docx
- Maven远程仓库的各种配置.docx
- maven项目上线,一条命令轻松修改版本号.docx
- MongoDB 最常见的错误说法.docx
- mongodb分布式集群架构.docx
- MongoDB各种查询操作详解.docx
- MQ中消息重复消费及解决.docx
- MVCC思想在分布式系统中的应用.docx
- MVP模式在携程酒店的应用和扩展.docx
- Prometheus原理和源码分析.docx
- pypy真的能让python比c还快?.docx
- Python . 的首个 PEP 诞生,内置类型 zip() 将迎来新特性.docx
- Python 为什么要有 pass 语句?.docx
- Python GUI 利用Tkinter制作签名设计软件!.docx
- Python 之父为什么嫌弃 lambda 匿名函数?.docx
- Python 炫技操作:安装包的八种方法.docx
- Python 的上下文管理器是怎样设计的?.docx
- Python 爬取朋友圈最新方法!!(文末赠书).docx
- pythondocx无法处理 “doc格式” 文件,于是我这样做.......docx
文档评论(0)