- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lec3 集中量数 离中趋势2008.ppt
* 概念小测查: 判断正误 没有经过校正, 样本方差是有偏估计量,因为它过高估计了总体方差. 一个样本n=10,其SS=90.这个样本的方差为9. 一个总体N=10,其SS=90.这个总体的方差为9. SS的计算不依赖于一组分数是样本还是总体. 在计算样本方差以估计无偏总体方差时, 用自由度作为公式的分母. * 在研究论文中报告集中量数和差异量数 * * * * * * * * * * * * * * * * * 相同 * * * * * * * 概念小测查: 判断正误 一个样本包含n=6 个分数,其均值是M=12. 这个样本∑X=72. 可能存在一个分数分布,其中没有一个分数是等于均值的. 如果把样本中的每一个分数加5,样本的均值不会变化. 一个样本,其均值是M=40. 如果一个分数X=55从样本中去掉,样本的均值会增加. 在一个100分的测验中,你得到X=73分.依据上述信息,你知道你的得分肯定高于中数. * 概念小测查: 判断正误 一个样本包含n=5 个分数,其均值是M=50.另一个样本包含n=10 个分数,其均值是M=60.如果将这两个样本混合,混合样本的均值会大于55. 一个样本包含n=4 个分数,其均值是M=10.如果一个新分数X=5加入样本,新样本均值是M=15. 有可能存在一个分布,其众数有2个. 对于所有的对称分布,均值,中数,众数会都相等. 一个分数分布,其均值是84,中数是80. 基于以上信息,可知分布是正偏态的. * 两个均值相同的正态分布 图3-4 两种分布的比较 * 差异量数(Variability) 分布的第三个特征 ----变异性(Variability). 变异数是对于分布的延伸和聚合状态程度的定量化描述 变异数越高,表明分数间的差别大, 变异数越小,表明分数间越近似. 三种差异量数: 全距 (range), 标准差 (standard deviation), 和四分位距(interquartile range). * 数据的特性 数据特性 均值 中数 众数 集中 趋势 全距 四分位距 标准差 变异性 偏度 形状 * 1.??? 全距 (range) 全距是分布分数最大值(maximum) X的精确上限与分布分数最小值(minimum) X 的精确下限的差值。 用全距描述分数变异性的局限: 该统计量只依据分布中的两个极端值,未利用到分布的大部分信息. 注意:如果分数是连续型,必须用精确上下限。 若 X是离散型: range = 10 - 5 = 5 若 X是连续型: range = 10.5- 4.5 * 数据的特性 数据特性 均值 中数 众数 集中 趋势 全距 四分位距 标准差 变异性 偏度 形状 * 2.?四分位距(interquartile range) 度量变异数的另一种方法. 50%,25%和75%的百分位数代表什么? 用50%,25%和75%的百分位数,分布被分成4部分 * Semi-interquartile Range .25 .25 .25 .25 10 6.5 Interquartile range = 10 - 6.5 = 3.5 Semi-interquartile range = 3.5/2 = 1.75 * 四分位距的计算 _ X f % c% 7 4 12.5 100 6 4 12.5 87.5 5 4 12.5 75 4? 8 25 62.5 3 4 12.5 37.5 2 4 12.5 25 1 4 12.5 12.5 * 四分位距就是75%百分位数与25%百分位数间的距离. 它代表分布中间50%的距离. 如果上例是连续型变量, median = Q2 = 4.0 - 用插入法 25%tile = Q1 = 2.5 - 区间2 的精确上限 75%tile = Q3 = 5.5 - 区间5 的精确上限 四分位距 (IQR) = 5.5 - 2.5 = 3.0 semi-interquartile range:四分位距的一半(interquartile range). SIQR = (Q3 - Q1)/2 * 数据的特性 数据特性 均值 中数 众数 集中 趋势 全距 四分位距 标准差 变异性 偏度 形状 * 标准差 (standard deviation) 量度了分布中的每一个个体与某一标准偏移的距离, 这个标准就是均值 最重要, 最常用的差异量数 考虑了分布中的所有信息 * 方差/标准差的逻辑步骤-1 X - m = 离差分数(deviation score) -如果
文档评论(0)