第3章 数据探索《Python数据分析与挖掘实战》.pptxVIP

第3章 数据探索《Python数据分析与挖掘实战》.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 数据探索;;时间范围不一致;时间粒度不一致;时间格式不一致;时区不一致;同名异议;同名同义;单位不统一;;缺失值校验;函数或方法名;简单统计质量分析 可以先对变量做一个描述性统计分析,进而查看哪些数据是不合理的。Python异常值检测函数或方法: ;函数或方法名;如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过三倍标准差的值。 如果数据不服从正态分布,则与平均值的偏差超过两倍标准差的数据为异常值,称为四分位距准则(IQR)。 使用IQR准则和3σ原则可??检测ary = (19, 57, 68, 52, 79, 43, 55, 94, 376, 4581, 3648, 70, 51, 38)中的异常值,返回为异常值的元素,并计算元组ary异常值所占的比例: ;?;; 集中趋势是指总体中各单位的次数分布从两边向中间集中的趋势,用于对比同类现象在不同的时间、地点和条件下的一般水平,反映同一总体某类现象在不同时间上变化的规律性、分析现象之间的依存关系。; 离中趋势是指总体中各单位标志值背离分布中心的规模或程度,用于衡量和比较平均数代表性的大小、反映社会经济活动过程的均衡性和节奏性、衡量风险程度。 ; pandas库的describe()方法可以给出一些基本的统计量,包括均值、标准差、最大值、最小值、分位数等。describe()方法的基本使用格式及参数说明如下: pandas.DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False) ;频率分布分析主要步骤: 定量数据分组遵循的主要原则如下: 各组之间必须是相互排斥的。 各组必须将所有的数据包含在内。 各组的组宽最好相等。 ;对于定性数据,常根据数据的分类类型进行分组,可以采用饼图和柱形图对定性变量进行分布分析。 以某餐馆的各菜系在某段时间内的销售额为例,采用定性数据的分布分析方法进行分析:;对比分析是指将两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各种关系是否协调,适用于指标间的横纵向比较、时间序列的比较分析。 对比分析主要有以下两种形式:;由于研究目的和对比基础不同,相对数可以分为以下几种: ;周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。 以某景区2019年3月份人流量为例,根据人流量数据,制时序图,并分析景区人流量的变化趋势: ;贡献度分析又称帕累托分析,贡献度分析的原理是帕累托法则,又称20/80定律。 以服装企业为例,根据企业对应的秋装盈利数据,绘制服装盈利帕累托图: ; 判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图。; 利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性。; 为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。 Pearson相关系数 Pearson相关系数一般可用于分析两个连续性变量之间的关系,其计算公式为: ;?;Spearman秩相关系数 不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。Spearman秩相关系数计算公式如下: 对两个变量成对的取值分别按照从小到大(或从大到小)顺序编秩, 代表 的秩次, 代表 的秩次, 为 、 的秩次之差。;一个变量 秩次的计算过程: ;判定系数 定系数是相关系数的平方,可用 进行表示,用于衡量回归方程对 的解释程度。 判定系数取值范围为 。越接近于1,表明两个变量之间的相关性越强; 接近于0,表明两个变量之间几乎没有直线相关关系。 ;pandas库的corr()方法可计算出列与列、变量与变量之间的成对相关系数,但不包括空值。corr()方法的基本使用格式和参数说明如下: pandas.DataFrame.corr(method = pearson, min_periods = 1) ;;

文档评论(0)

臂老师 + 关注
实名认证
文档贡献者

教师资格证持证人

臂老师,祝您一臂之力,成功(公)上岸!

领域认证该用户于2023年09月27日上传了教师资格证

1亿VIP精品文档

相关文档