- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
马秀麟
2014年8月
社会科学统计软件及应用
2014年9月22日
第3讲 基本统计分析——统计描述
一、统计描述的基本理论
1、基本概念
统计描述的目标
集中趋势分析
均值
众数
中位数
离散趋势分析
方差
标准差(标准误(SE.Mean)
四分位数(定序)
全距
异众比率(定类)
分布形态描述
偏度
峰度(峰峭度)
频数/百分数
正态分布/指数分布/泊松分布
一、统计描述的基本理论
统计描述方法
分布
分阶段统计频数
指定分段范围
四分位
百分位
分布形态
正态分布等
统计图
统计表
一、统计描述的基本理论
2、知识回顾
三类数值型变量
度量型变量(定距变量、连续变量)
高测度、连续取值
序号变量(定序变量)
低测度、离散型取值、有大小之分
例如:
5级量表的取值
名义变量(定类变量)
低测度、离散型取值、无大小之分
例如:
性别、单位编号、学号等
在统计中通常不作为统计量,常用作分组依据
一、统计描述的基本理论
集中趋势描述变量
均值
所有数据的平均值
适宜于——定距变量
众数
一组数据中出现次数最多的变量值
适宜于——定序变量 和 定类变量
中位数
对数据排序后,位于中间位置的数值
如果有偶数个数据,则取中间2数的均值
适宜于——定距变量、定序变量
一、统计描述的基本理论
一、统计描述的基本理论
离散趋势描述
方差(Variance)
方差用于反应样本波动程度——离散度;
方差=样本值与均值之差的平方和/除以差值的个数;
标准差(std. Dev)
标准差用于反应样本值与均值的距离,即样本波动程度——离散度;
标准差是方差的平方根
均值的标准误——SE.Mean
标准误=平方根(方差/样本数n)
因为标准差少除了一次样本数,不能真正地反映平均距离
一、统计描述的基本理论
标准差系数
即均方差系数,离散系数,从相对角度观察的差异和离散程度,在比较相关事物的差异程度时较之直接比较标准差要好些。反映标志变动程度的相对指标
原因:
标准差受样本值域的影响(5分制成绩与百分制成绩计算标准差)
标准差系数=标准差/均值。
全距(极差)
描述样本值的最大范围
最大值与最小值的差——适应于定距变量,易受奇异值的影响
四分位差
三分位的值—一分位的值
即75%处的值减去25%之处的值(箱体图的范围)
一、统计描述的基本理论
一、统计描述的基本理论
统计形态描述
正态分布
是一种理想化的分布形态,也叫高斯分布。
若随机变量服从一个位置参数为u、尺度参数为ð的概率分布,且其概率密度函数满足:
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布。
理想化的正态分布满足u=0, ð =1。U是位置, ð是标准差。
一、统计描述的基本理论
一、统计描述的基本理论
T分布
正态分布主要包含2个参数:u和σ。
由于在实际工作中,往往总体的σ是未知的,在样本量偏少的情况下,对于接近正态分布的样本常用样本方差作为总体方差的估计值,进行处理。
可以把t分布看作小样本量下针对正态分布的一种描述。
t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。
自由度ν越小,t分布曲线越低平;
自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
一、统计描述的基本理论
正态分布的标记变量
偏度
描述统计数据分布形态对称性的统计量
相对于正态分布(或t分布形态)
内涵:
偏度大于0,为正偏——向右偏
偏度小于0,为负偏——向左偏
峰度
描述变量值分布形态陡缓程度的统计量。
相对于正态分布
内涵:
其值与正态分布标准曲线对比。
大于0,更陡;小于0;较缓。
一、统计描述的基本理论
指数分布
在统计学中,指某一时刻事件发生的概率满足以“入”为控制量、时间t为自变量的指数关系。
一、统计描述的基本理论
其含义:
适宜解决无记忆性的事情发生的概率。
对于单一事件的发生而言,与时间无关。指数分布为“永远年青”的分布。
例如:
在学校门口等人,在7点来不来人与你等待的时间无关。
如果把X解释为仪器寿命,这表明如果已知X的寿命大于t年,则它再活s年的概率与年龄t无关。
总体分布满足指数关系。
一、统计描述的基本理论
一、统计描述的基本理论
泊松分布
一种离散的概率分布形式
若随机变量X 只取非负整数值0,1,2,..., 且其概率分布服从
则随机变量X 的分布称为泊松分布,记作P(λ)。
一、统计描述的基本理论
适应性描述
适应于小发生概率的随机事件,事件发生概率满足二元规则。
在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布
文档评论(0)