数据的分析知识点总结.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据的分析知识点总结

第一章数据的集中趋势

数据的集中趋势是指一组数据向某一中心值靠拢的程度,常用的描述指标有平均数、中位数和众数,它们从不同角度反映数据的整体特征,适用于不同的场景。

一、平均数

1.算术平均数

定义:一组数据中所有数据之和除以这组数据的个数,简称平均数,记为$\bar{x}$(读作“x拔”)。它是最常用的集中趋势指标,能充分利用所有数据的信息。

计算公式:若一组数据为$x_1,x_2,x_3,\dots,x_n$,则算术平均数$\bar{x}=\frac{x_1+x_2+x_3+\dots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_i$(其中$\sum$表示求和,$i=1$到$n$表示从第一个数据加到第$n$个数据)。

示例:一组数据2,4,6,8,10,其算术平均数为$\bar{x}=\frac{2+4+6+8+10}{5}=6$。

特点:算术平均数易受极端值(一组数据中明显偏大或偏小的数据)影响。例如:数据2,4,6,8,50的平均数为$\frac{2+4+6+8+50}{5}=14$,极端值50使平均数显著偏大,不能很好反映数据的一般水平。

2.加权平均数

定义:当一组数据中不同数据的重要程度不同(即具有不同“权重”)时,需计算加权平均数。权重通常用百分比、频数(数据出现的次数)等表示,记为$w_1,w_2,\dots,w_n$,且权重之和为1或总频数。

计算公式:若数据$x_1,x_2,\dots,x_n$对应的权重为$w_1,w_2,\dots,w_n$($w_1+w_2+\dots+w_n=1$),则加权平均数$\bar{x}=x_1w_1+x_2w_2+\dots+x_nw_n$;若权重为频数$f_1,f_2,\dots,f_n$(总频数$N=f_1+f_2+\dots+f_n$),则$\bar{x}=\frac{x_1f_1+x_2f_2+\dots+x_nf_n}{f_1+f_2+\dots+f_n}=\frac{1}{N}\sum_{i=1}^{n}x_if_i$。

常见场景:学业成绩计算(如平时成绩占30%、期末成绩占70%)、评分比赛(评委打分去掉极端值后加权平均)等。示例:某学生平时成绩80分(权重30%),期末成绩90分(权重70%),则总评成绩为$80×0.3+90×0.7=87$分。

特点:权重越大的数据,对加权平均数的影响越大,能更贴合实际需求反映数据的集中趋势。

二、中位数

定义:将一组数据按照从小到大(或从大到小)的顺序排列后,位于中间位置的数(若数据个数为奇数),或中间两个数据的平均数(若数据个数为偶数),称为这组数据的中位数。

计算步骤:①排序:将数据按升序或降序排列;②定位置:若数据个数$n$为奇数,中位数是第$\frac{n+1}{2}$个数据;若$n$为偶数,中位数是第$\frac{n}{2}$个数据与第$\frac{n}{2}+1$个数据的平均数。

示例:数据1,3,5,7,9($n=5$,奇数),中位数是第3个数据5;数据1,3,5,7($n=4$,偶数),中位数是$\frac{3+5}{2}=4$。

特点:中位数不受极端值影响,当一组数据存在极端值时,中位数比平均数更能反映数据的一般水平。例如:数据2,4,6,8,50的中位数为6,不受极端值50的影响,更贴合数据的实际集中情况。

三、众数

定义:一组数据中出现次数最多的数据,称为这组数据的众数。若一组数据中所有数据出现次数相同,则这组数据没有众数;若有多个数据出现次数相同且最多,则这组数据有多个众数。

确定方法:统计每组数据中各数据的出现频数,频数最高的数据即为众数。示例:数据2,3,3,4,4,4,5的众数是4(出现3次,次数最多);数据2,2,3,3,4的众数是2和3(均出现2次,次数最多);数据1,2,3,4的没有众数。

特点:①众数反映数据中最常见的数值,与数据的频数紧密相关;②众数可以是整数、小数,也可以是分类数据(如“性别”中的“男”“女”),适用范围广;③众数不受极端值影响,但可能不唯一或不存在。

应用场景:商业决策(如超市统计销量最高的商品,确定进货量)、民意调查(如最受欢迎的活动类型)等。

四、平均数、中位数、众数的比较与选择

指标

优点

缺点

适用场景

平均数

利用所有数据信息,反映整体平均水平

易受极端值影响

数据无极端值,需综合所有数据信息(如班级学生平均身高)

中位数

不受极端值影响,反映数据中间水平

未充分利用所有

文档评论(0)

明明资料 + 关注
实名认证
文档贡献者

最新资料 实时更新。

1亿VIP精品文档

相关文档