第八讲：单变量描述统计分析.ppt

下载文档 降价啦

104
0
约2.77千字
约 32页
2017-06-24 发布于河南
举报
版权申诉
保障服务

第八讲：单变量描述统计分析.ppt

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第八讲：单变量描述统计分析

第八讲：单变量描述统计分析本讲关注的主要问题 1.什么是单变量分析？ 2.变量分布特征； 3.如何制作统计图表？ 4.集中趋势分析法； 5.离散趋势分析法；第一节：什么是单变量分析？ 1.单变量分析就是针对一个变量或多个独立的变量进行的分析，以了解某一现象的本质和发展规律；例如：同济大学每年招收多少学生？同济大学共有多少个专业？每个专业各有多少人？某城市每天出生多少婴儿？等等。 2.对于单变量而言，一般需要研究它的分布特征，集中趋势和离散趋势。第二节：单变量分布特征通常收集到的原始资料（数据、变量）是杂乱无章的；在分析数据之间，通常我们会对数据进行一定整理。最简单的就是了解变量的分布特征。 1.所谓分布，就是在一次调查中，某变量的每一个取值所呈现的状态。包括频次分布和频率分布。 2.频次分布：变量取值及其对应的频次的集合； 3.频率分布：变量取值及其对应的频率的集合。 4.分布可以用表格来表示（分布表），也可以用图形来表示（分布图） 6.变量分布示例某班级学生性别分布（男生，100人）（女性，150人）；某学校学生父亲的职业分布（干部，110人）（工人，152人）（农民，288人）； 2010年上海市常住人口年收入分布（5000元以下，5%）（5000元-20000元，20%）（20000元-50000元，45%）（5000元及以上，30%） 7.分布表变量的取值要具有完备性（不能遗漏）和互斥性（不能重复）。为了满足这两个要求，在制作分布表时，会对原始数据有些修改。对于分组资料的上下限有所约定：规则“含下不含上”，即n≤x＜m； 7.1 定类变量分布表 7.2 定序变量分布表掌握累积频次的概念：cf↑（向上累加，一组数据从小到大排列）小于当前值的累积频次（或所占比例）。 7.2.1 向上累加cf↑与向下累加cf↓ 7.3 定距变量分布表假如某定距变量有100个取值，如100个儿童的身高；将其制作成分布表；思路：进行分组统计，转化为定类变量再进行统计。方法：确定组数→确定组距→确定分点精度（比原始数据提高一位精度）→频次统计。第三节：如何制作分布图？不同类型变量，可以制作不同类型的图。 1.定类变量：条形图，饼状图； 2.定序变量：条形图； 3.定距变量：直方图；利用excel作图。 1 定类变量条形图与饼状图 2 定序变量条形图：按序排列，可分散 3 定距变量直方图第四节：集中趋势测量法 1. 所谓集中趋势（central tendency），是指运用一个或多个特征值来代替样本的某一个变量的情况。当运用这个值来预测或概括样本时，所犯的错误最小。从而达到简化资料的目的。 2. 对于不同层次的变量，可以采用不同的集中趋势测量法。 2.1 定类变量的集中趋势测量有一组关于中国人口婚姻状况的资料（分为未婚、已婚、离婚和丧偶四种类型）。现从中再随机抽取一人，试预测其婚姻状况是哪种类型？当知道中国人口婚姻状况分布之后，又如何预测？两种结果哪个精确？ 2.1.1 众值测量法对于定类变量而言，一般采用众值（mode）来测量它们的集中趋势；众值：在一组数据中，出现频次最多的值；对于分组资料而言，众值是出现频次最多的组的中心值。右图，众值=？ 2.2 定序变量的集中趋势测量某班级21人的社会统计学考试成绩分为四个等级，依次为：及格，中，良，优；现从中任意抽取一人，猜测其成绩；在得知该21人成绩的分布之后，再预测其成绩，比较两次预测的结果有何差异？如果用众值的话会有什么损失？ 2.2.1 中位值测量法对于定序变量而言，采用中位值（mean）测量它们的集中趋势；所谓中位值，是指将一组数据从小到大（或从大到小）排序后，中间位置所对应的值。中位值表示一组数据中，有半数的取值小于或等于该值，有半数的取值大于或等于该值；比众值来预测更加精确，利用了变量的排序特征。 2.2.2 中位值的原始算法对于原始数据（n较小）可以直接排序，求中位值。n为奇数时，中位值为(n+1)/2位置对应的值；n为偶数时，中位值为(n+1)/2相邻两个位置对应的数的平均数；对于原始数据（n较大）时，根据变量的累积频次分布计算(n+1)/2位置对应的取值。例：9个人的日工资分别如下：47，42，50，51，92，112，71，83，108； 3. 定距变量的集中趋势对于定距变量而言，采用均值（mean）来代替他们最为精确，利用信息最多。均值计算有三种情况：原始数据（n较小）：求和取平均值原始数据（n较大）：根据频次分布分组数据（n较大）：取组中值比例数据： 3.1 求下列数据的平均值 3.2 众值、中位值、均值的比较 1.三个设计的目的是共同的，只是适用的测量层次不同。 2.均值是最灵敏的。