第八讲:单变量描述统计分析.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八讲:单变量描述统计分析

第八讲:单变量描述统计分析 本讲关注的主要问题 1.什么是单变量分析? 2.变量分布特征; 3.如何制作统计图表? 4.集中趋势分析法; 5.离散趋势分析法; 第一节:什么是单变量分析? 1.单变量分析就是针对一个变量或多个独立的变量进行的分析,以了解某一现象的本质和发展规律;例如: 同济大学每年招收多少学生? 同济大学共有多少个专业?每个专业各有多少人? 某城市每天出生多少婴儿?等等。 2.对于单变量而言,一般需要研究它的分布特征,集中趋势和离散趋势。 第二节:单变量分布特征 通常收集到的原始资料(数据、变量)是杂乱无章的;在分析数据之间,通常我们会对数据进行一定整理。最简单的就是了解变量的分布特征。 1.所谓分布,就是在一次调查中,某变量的每一个取值所呈现的状态。包括频次分布和频率分布。 2.频次分布:变量取值及其对应的频次的集合; 3.频率分布:变量取值及其对应的频率的集合。 4.分布可以用表格来表示(分布表),也可以用图形来表示(分布图) 6.变量分布示例 某班级学生性别分布(男生,100人)(女性,150人); 某学校学生父亲的职业分布(干部,110人)(工人,152人)(农民,288人); 2010年上海市常住人口年收入分布(5000元以下,5%)(5000元-20000元,20%)(20000元-50000元,45%)(5000元及以上,30%) 7.分布表 变量的取值要具有完备性(不能遗漏)和互斥性(不能重复)。为了满足这两个要求,在制作分布表时,会对原始数据有些修改。 对于分组资料的上下限有所约定:规则“含下不含上”,即n≤x<m; 7.1 定类变量分布表 7.2 定序变量分布表 掌握累积频次的概念:cf↑(向上累加,一组数据从小到大排列)小于当前值的累积频次(或所占比例)。 7.2.1 向上累加cf↑与向下累加cf↓ 7.3 定距变量分布表 假如某定距变量有100个取值,如100个儿童的身高;将其制作成分布表; 思路:进行分组统计,转化为定类变量再进行统计。 方法:确定组数→确定组距→确定分点精度(比原始数据提高一位精度)→频次统计。 第三节:如何制作分布图? 不同类型变量,可以制作不同类型的图。 1.定类变量:条形图,饼状图; 2.定序变量:条形图; 3.定距变量:直方图; 利用excel作图。 1 定类变量条形图与饼状图 2 定序变量条形图:按序排列,可分散 3 定距变量直方图 第四节:集中趋势测量法 1. 所谓集中趋势(central tendency),是指运用一个或多个特征值来代替样本的某一个变量的情况。当运用这个值来预测或概括样本时,所犯的错误最小。从而达到简化资料的目的。 2. 对于不同层次的变量,可以采用不同的集中趋势测量法。 2.1 定类变量的集中趋势测量 有一组关于中国人口婚姻状况的资料(分为未婚、已婚、离婚和丧偶四种类型)。现从中再随机抽取一人,试预测其婚姻状况是哪种类型?当知道中国人口婚姻状况分布之后,又如何预测?两种结果哪个精确? 2.1.1 众值测量法 对于定类变量而言,一般采用众值(mode)来测量它们的集中趋势; 众值:在一组数据中,出现频次最多的值; 对于分组资料而言,众值是出现频次最多的组的中心值。 右图,众值=? 2.2 定序变量的集中趋势测量 某班级21人的社会统计学考试成绩分为四个等级,依次为:及格,中,良,优;现从中任意抽取一人,猜测其成绩;在得知该21人成绩的分布之后,再预测其成绩,比较两次预测的结果有何差异? 如果用众值的话 会有什么损失? 2.2.1 中位值测量法 对于定序变量而言,采用中位值(mean)测量它们的集中趋势; 所谓中位值,是指将一组数据从小到大(或从大到小)排序后,中间位置所对应的值。 中位值表示一组数据中,有半数的取值小于或等于该值,有半数的取值大于或等于该值;比众值来预测更加精确,利用了变量的排序特征。 2.2.2 中位值的原始算法 对于原始数据(n较小)可以直接排序,求中位值。n为奇数时,中位值为(n+1)/2位置对应的值;n为偶数时,中位值为(n+1)/2相邻两个位置对应的数的平均数; 对于原始数据(n较大)时,根据变量的累积频次分布计算(n+1)/2位置对应的取值。 例:9个人的日工资分别如下:47,42,50,51,92,112,71,83,108; 3. 定距变量的集中趋势 对于定距变量而言,采用均值(mean)来代替他们最为精确,利用信息最多。 均值计算有三种情况: 原始数据(n较小):求和取平均值 原始数据(n较大):根据频次分布 分组数据(n较大):取组中值 比例数据: 3.1 求下列数据的平均值 3.2 众值、中位值、均值的比较 1.三个设计的目的是共同的,只是适用的测量层次不同 。 2.均值是最灵敏的。

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档