- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
************************第7章Python与数据分析《Python数据分析与应用》啤酒与尿布“啤酒与尿布”。该故事产生于20世纪90年代的美国沃尔玛超市,超市管理人员分析销售数据时发现了一个令人难于理解的现象——“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在年轻的父亲的同一个购物篮。这是由于在美国有婴儿的家庭中,母亲留在家中照看婴儿,父亲去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒。至此,超市人员将属于食品饮料的“啤酒”和属于生活用品的“尿布”摆放在一处,从而致使两种商品的销售量直线上升。数据分析流程(1)明确目标(2)获取数据(3)清洗数据(4)特征工程(5)构建模型(6)模型评估。明确目标这是数据分析与挖掘的第一步,即明确数据分析的对象、目标、或任务。此环节应该跟业务需求方多次沟通与合作,把握最终要解决的问题。规划哪些数据可能会影响到这些问题的答案,这一步就称为数据的获取过程。数据获取数据清洗为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗和整理,如数据的一致性检验、缺失值和异常值的处理等。特征工程通过Scipy、Pandas、Sklearn等分析库对数据进行统一量纲等标准化处理,对数据进行离散化处理,采用哑变量、独热编码进行数据重编码,实施特征工程。模型评估通常情况下,在模型搭建好后,并不意味着分析或挖掘任务的结束,还需要对模型的拟合效果做评估,其目的就是不断优化模型,使最终的模型能够更好地反映数据的真实性。构建模型建模的目的主要是为了预测,例如使用线性回归模型预测产品的销售额;利用决策树模型预测用户是否具有欺诈行为;利用朴素贝叶斯模型预测邮件是否为垃圾邮件。Python数据分析库库名简介Numpy提供数组支持,以及相应的高效处理函数Matplotlib强大的数据可视化工具、作图库Pandas强大的数据分析、数据处理和数据清洗工具seaborn数据可视化工具、作图库Scipy提供矩阵支持,以及矩阵相关的数值计算模块sklearn经典的机器学习库NumpyNumPy是Python的数据分析的基本库,是在Python的Numeric数据类型的基础上,引入Scipy模块中针对数据对象处理的功能,用于数值数组和矩阵类型的运算、矢量处理等。MatplotlibMatplotlib具有两个重要的模块——pylab和pyplot。Pylab实现了MATLAB的绘图功能,就是MATLAB的Python版本。pyplot主要用于将NumPy统计结果可视化,可以绘制线图、直方图、饼图、散点图以及误差线图等各种图形。Pandas?Pandas的名称来源于面板数据(PanelData)和Python数据分析(DataAnalysis),作为Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,支持关系型数据的增、删、改、查,具有丰富的数据处理函数,支持时间序列分析功能,灵活处理缺失数据等。seabornSeaborn是图形可视化python包,作为matplotlib的补充,在其基础上进行了更高级的API封装,高度兼容numpy与pandas数据结构以及scipy等统计模式,能做出具有吸引力的图。ScipyScipy是2001年发行的类似于Matlab和Mathematica等数学计算软件的Python库,用于统计、优化、整合、线性代数模块、傅里叶变换、信号和图像处理等数值计算。scipy具有stats(统计学工具包)、scipy.interpolate(插值,线性的,三次方)、cluster(聚类)、signal(信号处理)等模块。SklearnSklearn(又称为scikit-learn)是简单高效的数据挖掘和数据分析工具,基于python语言的NumPy、SciPy和matplotlib库之上,是当前较为流行的机器学习框架。数据分类定类数据:表示个体在属性上的特征和类别上的不同变量,只是一种标志,没有次序关系,不可以直接测量的数据。如外貌,出生地等。定序数据:表示个体在某个有序状态中所处的位置,不能直接做四则运算。如学历分为初中、高中、大学、硕士、博士等。定量数据:定量数据又称为定距数据,具有间距特征的变量,可以直接测量的数据,如身高、体重、气温等。数据统计量(1)极差极差又称范围误差或全距,用来衡量指定变量间差异变化范围,是最大值与最小值的差距,用于标志值变动的最大范围。通常极差越大,样本变化范围越大。(2)平均
您可能关注的文档
- 《Python数据分析与应用》(周元哲)教学大纲.doc
- Python数据分析与应用 课件全套 (周元哲) 第1--13章 Python编程概述--- Sklearn.pptx
- Python数据分析与应用 课件 第1章 Python编程概述.ppt
- Python数据分析与应用 课件 第3.1章 序列 .ppt
- Python数据分析与应用 课件 第4.1章 顺序程序设计.ppt
- Python数据分析与应用 课件 第5章 函数和模块.ppt
- Python数据分析与应用 课件 第6章 Python网络爬虫.ppt
- Python数据分析与应用 课件 第8章 numpy.ppt
- Python数据分析与应用 课件 第9章 matplotlib.ppt
- Python数据分析与应用 课件 第11章 scipy.ppt
- 2024年企业人力资源管理师之二级人力资源管理师模拟考试试卷A卷含答案完整版720780578.pdf
- 2024年检验类之临床医学检验技术(师)全真模拟考试试卷B卷含答案优质 完整版720844645.pdf
- 2024年四川省成都市第七中学初中学校中考一模物理试题(解析版).pdf
- 2024年二级建造师之二建水利水电实务过关检测试卷B卷附答案 .pdf
- 2024年教师资格之中学思想品德学科知识与教学能力综合检测试卷A卷含完整版720848701.pdf
- 2024年教师信息技术2.0教研组研修计划(优秀模板6篇)(6) .pdf
- 2024年教师资格之幼儿综合素质通关提分题库及完整答案 .pdf
- 2024年心理咨询师之心理咨询师基础知识通关提分题库及完整答案完整版720794806.pdf
- 2024年消防设施操作员之消防设备初级技能题库附答案(典型题).pdf
- 2024年小学信息技术工作计划样本(三篇) .pdf
文档评论(0)