Python数据分析与应用 课件 第7章 python与数据分析 .ppt

Python数据分析与应用 课件 第7章 python与数据分析 .ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

************************第7章Python与数据分析《Python数据分析与应用》啤酒与尿布“啤酒与尿布”。该故事产生于20世纪90年代的美国沃尔玛超市,超市管理人员分析销售数据时发现了一个令人难于理解的现象——“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在年轻的父亲的同一个购物篮。这是由于在美国有婴儿的家庭中,母亲留在家中照看婴儿,父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。至此,超市人员将属于食品饮料的“啤酒”和属于生活用品的“尿布”摆放在一处,从而致使两种商品的销售量直线上升。数据分析流程(1)明确目标(2)获取数据(3)清洗数据(4)特征工程(5)构建模型(6)模型评估。明确目标这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的获取过程。数据获取数据清洗为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理等。特征工程通过Scipy、Pandas、Sklearn等分析库对数据进行统一量纲等标准化处理,对数据进行离散化处理,采用哑变量、独热编码进行数据重编码,实施特征工程。模型评估通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。构建模型建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。Python数据分析库库名简介Numpy提供数组支持,以及相应的高效处理函数Matplotlib强大的数据可视化工具、作图库Pandas强大的数据分析、数据处理和数据清洗工具seaborn数据可视化工具、作图库Scipy提供矩阵支持,以及矩阵相关的数值计算模块sklearn经典的机器学习库NumpyNumPy是Python的数据分析的基本库,是在Python的Numeric数据类型的基础上,引入Scipy模块中针对数据对象处理的功能,用于数值数组和矩阵类型的运算、矢量处理等。MatplotlibMatplotlib具有两个重要的模块——pylab和pyplot。Pylab实现了MATLAB的绘图功能,就是MATLAB的Python版本。pyplot主要用于将NumPy统计结果可视化,可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。Pandas?Pandas的名称来源于面板数据(PanelData)和Python数据分析(DataAnalysis),作为Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,支持关系型数据的增、删、改、查,具有丰富的数据处理函数,支持时间序列分析功能,灵活处理缺失数据等。seabornSeaborn是图形可视化python包,作为matplotlib的补充,在其基础上进行了更高级的API封装,高度兼容numpy与pandas数据结构以及scipy等统计模式,能做出具有吸引力的图。ScipyScipy是2001年发行的类似于Matlab和Mathematica等数学计算软件的Python库,用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。scipy具有stats(统计学工具包)、scipy.interpolate(插值,线性的,三次方)、cluster(聚类)、signal(信号处理)等模块。SklearnSklearn(又称为scikit-learn)是简单高效的数据挖掘和数据分析工具,基于python语言的NumPy、SciPy和matplotlib库之上,是当前较为流行的机器学习框架。数据分类定类数据:表示个体在属性上的特征和类别上的不同变量,只是一种标志,没有次序关系,不可以直接测量的数据。如外貌,出生地等。定序数据:表示个体在某个有序状态中所处的位置,不能直接做四则运算。如学历分为初中、高中、大学、硕士、博士等。定量数据:定量数据又称为定距数据,具有间距特征的变量,可以直接测量的数据,如身高、体重、气温等。数据统计量(1)极差极差又称范围误差或全距,用来衡量指定变量间差异变化范围,是最大值与最小值的差距,用于标志值变动的最大范围。通常极差越大,样本变化范围越大。(2)平均

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档