- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据的分析知识点总结
第一章数据的集中趋势
数据的集中趋势是指一组数据向某一中心值靠拢的程度,常用的描述指标有平均数、中位数和众数,它们从不同角度反映数据的整体特征,适用于不同的场景。
一、平均数
1.算术平均数
定义:一组数据中所有数据之和除以这组数据的个数,简称平均数,记为$\bar{x}$(读作“x拔”)。它是最常用的集中趋势指标,能充分利用所有数据的信息。
计算公式:若一组数据为$x_1,x_2,x_3,\dots,x_n$,则算术平均数$\bar{x}=\frac{x_1+x_2+x_3+\dots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_i$(其中$\sum$表示求和,$i=1$到$n$表示从第一个数据加到第$n$个数据)。
示例:一组数据2,4,6,8,10,其算术平均数为$\bar{x}=\frac{2+4+6+8+10}{5}=6$。
特点:算术平均数易受极端值(一组数据中明显偏大或偏小的数据)影响。例如:数据2,4,6,8,50的平均数为$\frac{2+4+6+8+50}{5}=14$,极端值50使平均数显著偏大,不能很好反映数据的一般水平。
2.加权平均数
定义:当一组数据中不同数据的重要程度不同(即具有不同“权重”)时,需计算加权平均数。权重通常用百分比、频数(数据出现的次数)等表示,记为$w_1,w_2,\dots,w_n$,且权重之和为1或总频数。
计算公式:若数据$x_1,x_2,\dots,x_n$对应的权重为$w_1,w_2,\dots,w_n$($w_1+w_2+\dots+w_n=1$),则加权平均数$\bar{x}=x_1w_1+x_2w_2+\dots+x_nw_n$;若权重为频数$f_1,f_2,\dots,f_n$(总频数$N=f_1+f_2+\dots+f_n$),则$\bar{x}=\frac{x_1f_1+x_2f_2+\dots+x_nf_n}{f_1+f_2+\dots+f_n}=\frac{1}{N}\sum_{i=1}^{n}x_if_i$。
常见场景:学业成绩计算(如平时成绩占30%、期末成绩占70%)、评分比赛(评委打分去掉极端值后加权平均)等。示例:某学生平时成绩80分(权重30%),期末成绩90分(权重70%),则总评成绩为$80×0.3+90×0.7=87$分。
特点:权重越大的数据,对加权平均数的影响越大,能更贴合实际需求反映数据的集中趋势。
二、中位数
定义:将一组数据按照从小到大(或从大到小)的顺序排列后,位于中间位置的数(若数据个数为奇数),或中间两个数据的平均数(若数据个数为偶数),称为这组数据的中位数。
计算步骤:①排序:将数据按升序或降序排列;②定位置:若数据个数$n$为奇数,中位数是第$\frac{n+1}{2}$个数据;若$n$为偶数,中位数是第$\frac{n}{2}$个数据与第$\frac{n}{2}+1$个数据的平均数。
示例:数据1,3,5,7,9($n=5$,奇数),中位数是第3个数据5;数据1,3,5,7($n=4$,偶数),中位数是$\frac{3+5}{2}=4$。
特点:中位数不受极端值影响,当一组数据存在极端值时,中位数比平均数更能反映数据的一般水平。例如:数据2,4,6,8,50的中位数为6,不受极端值50的影响,更贴合数据的实际集中情况。
三、众数
定义:一组数据中出现次数最多的数据,称为这组数据的众数。若一组数据中所有数据出现次数相同,则这组数据没有众数;若有多个数据出现次数相同且最多,则这组数据有多个众数。
确定方法:统计每组数据中各数据的出现频数,频数最高的数据即为众数。示例:数据2,3,3,4,4,4,5的众数是4(出现3次,次数最多);数据2,2,3,3,4的众数是2和3(均出现2次,次数最多);数据1,2,3,4的没有众数。
特点:①众数反映数据中最常见的数值,与数据的频数紧密相关;②众数可以是整数、小数,也可以是分类数据(如“性别”中的“男”“女”),适用范围广;③众数不受极端值影响,但可能不唯一或不存在。
应用场景:商业决策(如超市统计销量最高的商品,确定进货量)、民意调查(如最受欢迎的活动类型)等。
四、平均数、中位数、众数的比较与选择
指标
优点
缺点
适用场景
平均数
利用所有数据信息,反映整体平均水平
易受极端值影响
数据无极端值,需综合所有数据信息(如班级学生平均身高)
中位数
不受极端值影响,反映数据中间水平
未充分利用所有
您可能关注的文档
最近下载
- 音响师论文(6代表作范文)-音响艺术论文-艺术论文.docx
- 贾冰喳喳小品《彩礼谈判专家》台词剧本手稿.doc VIP
- 《中国古代哲学史》课件.ppt VIP
- 广东省“八校联盟”2026届高三上学期质量检测(一)语文试卷含答案.docx VIP
- 2025年保安员(初级)考试模拟100题及在线模拟考试(100题,含答案)完整版.pdf VIP
- 中职高一数学第一学期期中考试.pdf VIP
- 复地集团人力资源管控与运营体系.ppt VIP
- 《工程伦理》习题及期末参考答案.docx VIP
- 2024 年高职英语基础模块期末考试试卷.pdf VIP
- 西师版五上数学《图形的变换和可能性》综合练习题.docx VIP
原创力文档


文档评论(0)