数据清洗入门.pptxVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据清洗NumpyPandas讲师:张淑娟2019.3.14Lifeisshort,youneedpython

数据分析流程确定数据分析的目的获取数据清洗数据探索数据建模分析结果交流数据分析流程:明确的分析目的就像是瞄准了正确的靶心,才能使后续的动作有意义收集原始数据,数据来源可能是丰富多样的,格式也可能不尽相同理顺杂乱的原始数据,并修正数据中的错误,这一步比较繁杂,但确是整个分析的基石进行探索式分析,对整个数据集有个全面的认识,以便后续选择何种分析策略常常用到机器学习、深度学习等算法使用报告、图表等形式展现出来,与他人交流

Numpy概述NumPy是NumericalPython的简称,是高性能计算和数据分析的基础包。Numeric,即NumPy的前身,是由JimHugunin开发的。Jim也开发了另一个包Numarray,它拥有一些额外的功能。2005年,TravisOliphant通过将Numarray的功能集成到Numeric包中来创建NumPy包。

Numpy安装方法一:标准的Python发行版不会与NumPy模块捆绑在一起。一个轻量级的替代方法是使用流行的Python包安装程序pip来安装NumPy。在CMD或命令行中执行:pipinstallnumpy方法二:使用Anaconda的Python发行版,这个发行版已经提前为我们安装了各类的科学计算需要的第三方包。我们直接使用就可以了。(推荐)

Numpy特性NumPy相比于Python内建的库和数据类型有以下特性:强大、灵活的多维数组对象及丰富的操作C实现,执行效率高线性代数、傅里叶变换、丰富的随机数功能复杂的(广播)功能Numpy官网:/

Numpy应用?用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。?常用的数组算法,如排序、唯一化、集合运算等。?高效的描述统计和数据合并/运算。?用于数据集的合并/连接运算,数据对齐和关系型数据运算。?将条件逻辑表述为数组表达式(而不是带有if-elifelse分支的循环)?数据的分组运算(聚合、转换、函数应用等)

ndarrayNumPy的一个关键特性是它的N维数组对象(ndarray),它在Python中是一个大型数据集的快速的,灵活的容器。数组使你能够在整个数据块上进行数学运算,且与对应的纯量元素间操作有相似的语法。ndarray是一个同种类数据的多维容器,也就是说,它的所有元素都是同类型的。每一个数组都有一个shape(表示它每一维大小的元组)和dtype(一个描述数组数据类型的对象)。

Numpy常用函数方法我们使用如下缩写:a:任意的Numpyndarray对象numpy约定俗成的导入方式:importnumpyasnp

Numpy常用函数方法np.arange(n);元素从0到n-1的ndarray类型np.ones(shape):生成全1数组np.zeros((shape),dtype=32):生成int32型的全0np.full((shape),val):生成全为valnp.eye(n):生成单位矩阵ndarray数组的创建np.ones_like(a):按数组a的形状生成全1的数组np.zeros_like(a):同理np.full_like(a,val):同理np.linspace(1,10,4):根据起止数据等间距地生成数组np.linspace(1,10,4,endpoint=False):endpoint表示10是否作为生成的元素

Numpy常用函数方法a.ndim:维度a.shape:各维度的尺度a.size:元素的个数a.dtype:元素的类型a.itemsize:每个元素的大小,以字节为单位常用属性

Numpy常用函数方法a.reshape(shape):不改变当前数组,依shape生成a.resize(shape):改变当前数组,依shape生成a.swapaxes(ax1,ax2):将两个维度调换,不改变原数组a.flatten():对数组进行降维,返回折叠后的一维数组数组的维度变换数组的类型变换数据类型的转换:a.astype(new_type):eg,a.astype(np.float)数组向列表的转换:a.tolist()

Numpy常用函数方法一维数组切片a=np.array([9,8,7,6,5,])a[1:4:2]–array([8,6]):a[起始编号:终止编

文档评论(0)

liwenfang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档