- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
统计学笔记
引言
统计学,作为一门收集、整理、分析数据并从中提取信息、形成结论的科学,其应用遍及各个领域。无论是科学研究、商业决策还是日常生活,理解和运用统计学思维都至关重要。本笔记旨在梳理统计学的核心概念与方法,力求严谨与实用并重,为深入学习或实际应用打下基础。
一、数据的基本概念与类型
1.1数据与变量
我们身边充满了各种信息,当这些信息以可量化或可记录的形式呈现时,便构成了数据。统计学的研究始于数据。而变量则是描述个体或观察单位某种特征的名称,其取值会因个体或观察单位的不同而变化。例如,“年龄”、“身高”、“职业”都是变量,它们分别描述了人的不同特征。
1.2变量的类型
变量的类型划分对于选择合适的统计方法至关重要。通常可分为以下几类:
*定性变量(QualitativeVariable):亦称分类变量,其取值为类别。
*名义变量(NominalVariable):类别间无固有顺序。例如,性别(男、女)、血型(A、B、AB、O)、职业类型。
*有序变量(OrdinalVariable):类别间存在明确的顺序或等级关系,但顺序间的差距未必相等。例如,满意度(非常满意、满意、一般、不满意、非常不满意)、学历(小学、初中、高中、大学)。
*定量变量(QuantitativeVariable):亦称数值变量,其取值为具体的数值,具有实际测量意义。
*离散型变量(DiscreteVariable):取值为有限个或可数无穷个孤立的数值,通常为计数结果。例如,家庭人口数、某商店每日顾客数量。
*连续型变量(ContinuousVariable):取值可以是某一区间内的任意实数,通常为测量结果,理论上可以无限细分。例如,身高、体重、温度、时间。
明确变量类型是进行后续统计分析的第一步,因为不同类型的变量适用的描述和推断方法存在显著差异。
二、描述性统计
描述性统计是对数据的基本特征进行概括和呈现的统计方法,其目的是通过图表或数值方法,使数据的主要信息清晰可见。
2.1数据的集中趋势度量
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了数据的一般水平。
*均值(Mean):即算术平均数,是所有数据之和除以数据个数。它利用了所有数据的信息,但易受极端值(异常值)的影响。
*中位数(Median):将一组数据按大小顺序排列后,处于中间位置的数值。如果数据个数为偶数,则取中间两个数的平均值。中位数不受极端值影响,具有较好的稳健性。
*众数(Mode):一组数据中出现次数最多的数值。众数可能不止一个,也可能不存在(当所有数据出现次数相同时)。它适用于各种类型的数据,尤其是分类数据。
选择何种集中趋势度量,需根据数据类型、分布形态以及研究目的综合决定。例如,对于偏态分布的数据,中位数往往比均值更能代表其中心位置。
2.2数据的离散程度度量
离散程度反映了数据远离中心值的程度,它与集中趋势一起,能更全面地描述数据的分布特征。
*极差(Range):一组数据中最大值与最小值之差。它简单易懂,但只利用了两个极端值的信息,稳定性较差。
*方差(Variance):各数据与均值之差的平方和的平均数。它考虑了所有数据与均值的偏离程度,但由于平方运算,其单位是原数据单位的平方。
*标准差(StandardDeviation):方差的算术平方根。它具有与原数据相同的单位,因此更易于解释,是最常用的离散程度度量之一。
*四分位距(InterquartileRange,IQR):上四分位数(Q3,即数据中处于75%位置的值)与下四分位数(Q1,即数据中处于25%位置的值)之差。它反映了中间50%数据的离散程度,同样不受极端值的显著影响。
2.3分布形态的描述
数据的分布形态也是描述性统计的重要内容,如是否对称、是否存在偏斜、峰值高低等。
*对称分布与偏态分布:若数据分布左右对称,则为对称分布,此时均值、中位数、众数通常重合或接近。若数据分布向一侧偏斜,则为偏态分布。向右偏(长尾在右)称为正偏态或右偏态,此时均值大于中位数;向左偏(长尾在左)称为负偏态或左偏态,此时均值小于中位数。
*峰度(Kurtosis):描述数据分布曲线的陡峭程度或扁平程度。
2.4数据的图表展示
图表是直观呈现数据特征的有效工具。常用的图表包括:
*频数分布表与频数分布图:适用于展示数据在各个区间或类别的分布情况。
*条形图(BarChart):适用于展示不同类别数据的频数或频率,类别间通常相互独立。
*直方图(Histogram):适用于展示连续型数据的频数分布,其横轴为数据分组区间,纵轴为频数或频率,矩形之间无间隔。
*饼图(PieChart
原创力文档


文档评论(0)