- 1、本文档共34页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
python程序设计数据处理大数据技术BIGDATA
1.掌握pandas模块的使用
pandas模块思考:Python如何处理如下结构的数据?Sepal.LengthSepal.WidthPetal.LengthPetal.Widthclass5.13.51.40.2setosa4.931.40.2setosa73.24.71.4versicolor6.43.24.51.5versicolor6.33.362.5virginica5.82.75.11.9virginica
pandas模块pandas:强大的数据分析和处理工具。快速、灵活、富有表现力的数据结构:DataFrame数据框和Series系列支持类似SQL的数据增、删、查、改带有丰富的数据处理函数支持时间序列分析功能支持灵活处理缺失数据
pandas模块基本操作读写文本文件文本文件读取文本文件是一种由若干行字符构成的计算机文件,它是一种典型的顺序文件。csv是一种逗号分隔的文件格式,因为其分隔符不一定是逗号,又被称为字符分隔文件,文件以纯文本形式存储表格数据(数字和文本)。
pandas模块基本操作读写文本文件1.文本文件读取pandas.read_csv(filepath_or_buffer,sep=’,’,header=’infer’,names=None,index_col=None,dtype=None,engine=None,nrows=None)参数名称说明filepath接收string。代表文件路径。无默认。sep接收string。代表分隔符。read_csv默认为“,”,read_table默认为制表符“[Tab]”。header接收int或sequence。表示将某行数据作为列名。默认为infer,表示自动识别。names接收array。表示列名。默认为None。index_col接收int、sequence或False。表示索引列的位置,取值为sequence则代表多重索引。默认为None。dtype接收dict。代表写入的数据类型(列名为key,数据格式为values)。默认为None。engine接收c或者python。代表数据解析引擎。默认为c。
pandas模块基本操作读写文本文件文本文件读取sep参数是指定文本的分隔符的,如果分隔符指定错误,在读取数据的时候,每一行数据将连成一片。header参数是用来指定列名的,如果是None则会添加一个默认的列名。encoding代表文件的编码格式,常用的编码有utf-8、utf-16、gbk、gb2312、gb18030等。如果编码指定错误数据将无法读取,IPython解释器会报解析错误。
pandas模块基本操作读写文本文件文本文件储存文本文件的存储和读取类似,结构化数据可以通过pandas中的to_csv函数实现以csv文件格式存储文件。DataFrame.to_csv(path_or_buf=None,sep=’,’,na_rep=”,columns=None,header=True,index=True,index_label=None,mode=’w’,encoding=None)参数名称说明参数名称说明path_or_buf接收string。代表文件路径。无默认。index接收boolean,代表是否将行名(索引)写出。默认为Truesep接收string。代表分隔符。默认为“,”。index_labels接收sequence。表示索引名。默认为None。na_rep接收string。代表缺失值。默认为“”。mode接收特定string。代表数据写入模式。默认为w。columns接收list。代表写出的列名。默认为None。encoding接收特定string。代表存储文件的编码格式。默认为Noneheader接收boolean,代表是否将列名写出。默认为True。
pandas模块基本操作读写Excel文件Excel文件读取pandas提供了read_excel函数来读取“xls”“xlsx”两种Excel文件。pandas.read_excel(io,sheetname=0,header=0,index_col=None,names=None,dtype=None)参数名称说明io接收string。表示文件路径。无默认。sheet_name接收string、int。代表excel表内数据的分表位置。默认为0。header接收int或sequence。表示将某行数据作为列名。默认为infer,表示自动识别。names接收int、sequence或者False。表示索引列的位置,取值为sequence则代表多重索引。默认为None。ind
文档评论(0)