人民大2024付东普《数据采集与处理:基于python》PPT第6章-统计与概率基础.pptx

人民大2024付东普《数据采集与处理:基于python》PPT第6章-统计与概率基础.pptx

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第六章

统计与概率基础《数据采集与处理:基于Python》付东普管理工程学院电子邮箱:fudongpu@cueb.edu.cn2024/5/111

2024/5/112教学目标本章学习目标1.了解变量类型及其特点,理解不同类型变量的描述性统计相关指标和含义,掌握Python计算变量的描述性统计指标常用的numpy和pandas方法;2.了解离散变量和连续变量相关的分布函数及分布图形的特点,掌握Python常用模块numpy、scipy、matplotlib用于不同类型变量数据的构造、分布及可视化的方法;3.了解偏度、峰度的概念及分布特点,理解其计算方法及应用。本章提纲1、统计基础2、概率与分布

统计基础2024/5/113

变量类型2024/5/114变量按照取值连续性可分为离散变量(discretevariables)和连续变量(continuousvariables)。离散变量的值是离散的,如颜色、正确/错误;连续变量的值是实际数字,如长度。变量按照测量方法,有以下测量级别。●类别(categorical):无序变量。例如:性别,真假,是否等;颜色:红色,蓝色,绿色等。●序数(ordinal):标度的不同点之间有一定的次序,但没有相等距离的含义。例如:教育水平:初中,高中,大学等;李克特量表:1~5反映程度;社会等级:低,中,高等。●区间(interval):比例尺上连续的点有相等的差值,但零点的位置是任意的。例如:摄氏或华氏温标测量的温度,经度等。●比例(ratio):分数的相对大小和它们之间的差异很重要。0的位置是固定的。

描述性统计2024/5/115二、描述性统计在数据分析与统计工作中,通常用少量的统计数据或图形来描述数据集。假设有n个样本x1,x2,…,xn的真实值,则描述性统计有最小值、最大值、中位数、均值、标准差等,其中均值和标准差分别是描述数据集中趋势和离散程度的最重要的统计测度。

描述性统计2024/5/1161.集中趋势的测度(1)均值。均值也称为平均数,是统计学中最常用的统计量,用来表明数据中各观测值相对集中的中心位置,反映现象总体的一般水平或分布的集中趋势。在统计学中,算术平均数常用于表示统计对象的一般水平,是描述数据集中位置的一个统计量。它既可以用来反映一组数据的一般情况和平均水平,也可以用来进行不同组数据之间的比较,以看出组与组之间的差别。均值包括算术平均数、几何平均数等,下面简要介绍。①算术平均数。算术平均数(arithmeticmean)是一组数据中所有数据之和除以数据个数所得的结果,它是反映数据集中趋势的一项指标。计算公式如下:

描述性统计2024/5/117加权平均数(weightedaverage)是不同比重数据的平均数,即把原始数据按照合理的比例进行计算。计算公式如下:式中,f1+f2+…+fn=n,f1、f2、…、fn称作权重(weight)。算术平均数是加权平均数的一种特殊情况,即各项的权重相等时,加权平均数就是算术平均数。②几何平均数。n个观测值的连乘积的n次方根就是几何平均数(geometricmean)。根据数据的条件不同,几何平均数有加权和不加权之分。(2)中位数。中位数(median)又称中值,是指将统计总体中的各个变量值按大小顺序排列起来,形成一个数列,处于数列中间位置的变量值就称为中位数。假设有n个数据,当n为偶数时,中位数为第n/2个数和第(n+2)/2个数的均值;当n为奇数时,中位数为第(n+1)/2个数的值。

描述性统计2024/5/118(3)众数。众数(mode)是指在统计分布上具有明显集中趋势的数值,代表数据的一般水平。它是一组数据中出现次数最多的数值,有时在一组数据中可以有多个众数。示例程序如下:importnumpyasnpimportpandasaspdfromscipyimportstatsAvg_snow=[28.50,76.77,92.00,95.40,90.85,99.66,80.00]#月均降雪列表np.min(Avg_snow),np.max(Avg_snow)#计算最小值和最大值#这些数值分别对应什么月份?imin=np.argmin(Avg_snow) #返回最小值所在索引位置imax=np.argmax(Avg_snow) #返回最大值所在索引位置months=[Oct,Nov,Dec,Jan,Feb,March,Apr]print(imin,imax,months[imin],months[imax])np.mean(Avg_snow) #计算均值np.median(Avg_snow) #计算中位数population=[30,25,30,40,25,30,2

文档评论(0)

allen734901 + 关注
实名认证
内容提供者

知识共享

1亿VIP精品文档

相关文档