Pandas处理w条数据，最终生成w条！.docxVIP

下载本文档

2
0
约2.28千字
约 7页
2021-11-15 发布于湖南
举报
版权申诉

Pandas处理w条数据，最终生成w条！.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Pandas处理8w条数据，最终生成800w条！直接先上完整代码吧！ import?pandas?as?pd#?1.?读取数据df?=?pd.read_csv(wgs84?-?副本.csv,header=None)df.columns?=?[列一,列二]##?2.?数据处理与数据写入df1?=?pd.DataFrame()for?index,value?in?enumerate(df[列一]):????y?=?value[10:-3].split(,)????z?=?[[index+1]?+?i.strip().split(?)?for?i?in?y]????df1?=?df1.append(z)df1.columns?=?[行号,经度,维度]##?3.?保存数据df1.to_excel(经纬度.xlsx,index=None) 上述代码共分为3个部分，具体解释如下：首先是数据读取。由于给我的数据没有标题行，读取时候需要使用header=None参数，同时为了后续处理便利，为数据添加标题行。接着是数据处理和数据写入。由于每一行数据都在(( ))双括号中，我们需要先提取其中的字符串，然后依据，逗号切分，再依据空格切分，得到每个经纬度数据的列表。同时使用+加号拼接列表，就得到了每行数据，都是3个数据组成的列表嵌套。再使用append()函数，就可以将数据添加到表格中。最终是数据写入。我们将组织好的数据，最终写入到Excel文件中，不要索引行，因而使用了index=None参数。为了愈加清楚的呈现这个效果，下面提取其中一条数据为大家讲解此过程。 ① 取出其中一条数据 x?=?df[列一][0]x 结果如下： ② 切片+切分字符串 y?=?x[10:-3].split(,)y 结果如下：留意到上述结果中，存在一些空格，我们后续需要使用strip()函数去除掉。 ③ 列表拼接+列表解析式 z?=?[[1]?+?i.strip().split(?)?for?i?in?y]z 结果如下： ④ 使用append函数添加数据 df1?=?pd.DataFrame()df1.append(z) 结果如下：假如有8w+数据，怎样处理的快呢？在请教了明佬以后，最终给出如下代码，仅需要十几秒，就可以处理8w+条数据。 import?pandas?as?pdimport?os# 分块、分块、分块chunks?=?pd.read_csv(wgs84.csv,?chunksize=10000)last?=?0for?df?in?chunks:????df.dropna(how=all,?inplace=True)????result?=?[]????for?a,?b?in?df.values:????????if?not?isinstance(a,?str):????????????continue????????if?pd.isna(b):????????????b?=?last+1????????elif?isinstance(b,?str)?and?not?b.isdigit():????????????print(a,?b,?last)????????????continue????????for?p?in?a[10:-3].split(,):????????????result.append((b,?*p.split()))????????if?not?pd.isna(b):????????????last?=?int(b)????df?=?pd.DataFrame(result,?columns=[行号,?经度,?维度])????file?=?result.csv????df.to_csv(file,?index=False,?mode=a,??????????????header=not?os.path.exists(file),?encoding=u8) 8w+的数据，最终生成后，却有800w条，Excel是打不开的。为了大家能够更快的理解这段代码，有几个学问点，我给大家讲解一下。 ① 列表前面加个*号，啥意思？列表、元组前面加星号，作用是将列表解开成两个独立的参数，传入函数，字典前面加两个星号，是将字典解开成独立的元素作为形参。 x?=?Polygon?((10038?10038)#?不加*号for?i,p?in?enumerate(x[10:-3].split(,)):????print(p.split())#?加*号for?i,p?in?enumera