Pandas处理w条数据,最终生成w条!.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Pandas处理8w条数据,最终生成800w条! 直接先上完整代码吧! import?pandas?as?pd #?1.?读取数据 df?=?pd.read_csv(wgs84?-?副本.csv,header=None) df.columns?=?[列一,列二] ##?2.?数据处理与数据写入 df1?=?pd.DataFrame() for?index,value?in?enumerate(df[列一]): ????y?=?value[10:-3].split(,) ????z?=?[[index+1]?+?i.strip().split(?)?for?i?in?y] ????df1?=?df1.append(z) df1.columns?=?[行号,经度,维度] ##?3.?保存数据 df1.to_excel(经纬度.xlsx,index=None) 上述代码共分为3个部分,具体解释如下: 首先是数据读取。由于给我的数据没有标题行,读取时候需要使用header=None参数,同时为了后续处理便利,为数据添加标题行。 接着是数据处理和数据写入。由于每一行数据都在(( ))双括号中,我们需要先提取其中的字符串,然后依据,逗号切分,再依据空格切分,得到每个经纬度数据的列表。同时使用+加号拼接列表,就得到了每行数据,都是3个数据组成的列表嵌套。再使用append()函数,就可以将数据添加到表格中。 最终是数据写入。我们将组织好的数据,最终写入到Excel文件中,不要索引行,因而使用了index=None参数。 为了愈加清楚的呈现这个效果,下面提取其中一条数据为大家讲解此过程。 ① 取出其中一条数据 x?=?df[列一][0] x 结果如下: ② 切片+切分字符串 y?=?x[10:-3].split(,) y 结果如下: 留意到上述结果中,存在一些空格,我们后续需要使用strip()函数去除掉。 ③ 列表拼接+列表解析式 z?=?[[1]?+?i.strip().split(?)?for?i?in?y] z 结果如下: ④ 使用append函数添加数据 df1?=?pd.DataFrame() df1.append(z) 结果如下: 假如有8w+数据,怎样处理的快呢? 在请教了明佬以后,最终给出如下代码,仅需要十几秒,就可以处理8w+条数据。 import?pandas?as?pd import?os # 分块、分块、分块 chunks?=?pd.read_csv(wgs84.csv,?chunksize=10000) last?=?0 for?df?in?chunks: ????df.dropna(how=all,?inplace=True) ????result?=?[] ????for?a,?b?in?df.values: ????????if?not?isinstance(a,?str): ????????????continue ????????if?pd.isna(b): ????????????b?=?last+1 ????????elif?isinstance(b,?str)?and?not?b.isdigit(): ????????????print(a,?b,?last) ????????????continue ????????for?p?in?a[10:-3].split(,): ????????????result.append((b,?*p.split())) ????????if?not?pd.isna(b): ????????????last?=?int(b) ????df?=?pd.DataFrame(result,?columns=[行号,?经度,?维度]) ????file?=?result.csv ????df.to_csv(file,?index=False,?mode=a, ??????????????header=not?os.path.exists(file),?encoding=u8) 8w+的数据,最终生成后,却有800w条,Excel是打不开的。 为了大家能够更快的理解这段代码,有几个学问点,我给大家讲解一下。 ① 列表前面加个*号,啥意思? 列表、元组前面加星号,作用是将列表解开成两个独立的参数,传入函数,字典前面加两个星号,是将字典解开成独立的元素作为形参。 x?=?Polygon?((10038?10038) #?不加*号 for?i,p?in?enumerate(x[10:-3].split(,)): ????print(p.split()) #?加*号 for?i,p?in?enumera

文档评论(0)

bob157641554 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档