统计学学习笔记.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学学习笔记

统计学 学习笔记 (一)—— 学统计学需要理由吗?我承认,我学统计学是出于很实际的目的的。其实在本科的时候已经学习了《概率论与统计学》,可惜以应试为目标的学习成果,最后统统都还给老师了。这次正儿八经地从头开始学习,鞭策我的根本动力就是要在项目中运用到。 ??? 不过之所以没有直接去读SPSS帮助文档,快速上手做统计,还是有另外的考虑的:作为一个以Computer Science为专业的IT民工,还是比较想究其所以然的,总得了解一下为什么统计学值得花这么多时间吧! ??? 本系列说白了就是一统计学学习笔记,主要的学习书目为:《爱上统计学》,《漫画统计学》,《医用统计方法》。其他的等用到了再补充。预期的学习方向:医学统计学。总目标:记录医学相关的统计学知识要点以及学习心得。尽量做到有理有据,有图有真相。“真相”主要是以数据集stroke_clean.sav(脑中风数据)为例,图来自SPSS的操作截图。 统计学:一门关于数据的学科 ????统计学?:描述一系列可用于描述、整理和解释资料或数据的统计工具和技术。[爱上统计学,p6] ??? 可以看出,数据是统计学的根本。要是没有数据,或者没有针对数据的需求,那么统计学也就不需要了。但不是所有的数据都可以作为统计学方法的输入的。 确认数据种类 ??? 数据有无数多。各种各样的,千奇百怪的。 ??? 那么统计学对什么样的数据感兴趣呢?总不能所有都要涉及吧?主要是以下几类数据[SPSS,漫画统计学,医用统计方法](图1): 1.??? 数值型(度量型,scale):数据是连续的;数据之间间隔相等,可测量;可区分大小。如年龄age。也称为连续型、数值数据、定量数据。 2.??? 序列型(序号型,ordinal):数据不是连续的;数据之间不可测量;但可区分大小。如治疗结果result。 3.??? 字符型(名义型,nominal):数据不是连续的;数据之间不可测量;不可区分大小。如消凝药物clotsolv。 4.??? 布尔型(boolean):数据只有两个取值;数据之间不可测量;不可区分大小。如性别gender。 ??? 后面三种可以被称为分类数据。 图1:数据类型示例 统计学 学习笔记 (二)—— 掌握数据的整体状态 数据的集中趋势掌握数据的整体状态 ??? 如果只是看到一堆数据,杂乱无章地排在一起,人很难看出它们到底反应了什么信息。而各种数据分析技术的发展,却要求我们在分析之前就能对数据从整体上尽可能把握特性,从而为后面的分析方法的选择及分析结果的理解提供可靠的依据。 ??? 统计学中对于一组数据的整体状态,提供了多方位多角度的衡量指标。从数值的角度,可以从两个方面进行描述:数据的集中趋势(central tendency),数据的变异性(variability)。从图示的角度,可以通过数据组的频数分布(frequency distribution)及直方图来形象地描绘数据组内数值的分布状态。 ? 数据的集中趋势 ??? 数据的集中趋势很好理解,通俗地说,就是看看这组数据大概讲什么的。比如对于图2中的age数据,一眼看去,都在50以上,大概能够猜到这组数据主要讲的是老年人。但具体如何,在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。这些指标最常见的就是均值(算术均值)、中值和众数;另外在医学统计学中,也经常会用到几何均值。 图2:年龄数据示例 ????均值?(算术均值,mean,arithmetic mean):数据组中所有数值的总和除以该组数值的个数。指的就是数值的中间点。 ??? 均值作为数据的集中趋势量数在统计学中受关注最多,这儿也详细列举了一些均值的重要特性 [Arithmetic_mean, /wiki/Arithmetic_mean]: ???? 将数据组中每个数值减去均值后的结果相加,和等于0。可以把某个数值减去均值的结果看作是这个数值到均值的距离。 ???? 均值是最能反映数据的集中趋势的单一指标,如果考虑到均值可以使每个数值减去均值后的平方和最小这个情况。 ???? 对于正态分布来说,其均值与中值和众数相等。 ???? 均值对极值很敏感。当极值比较大的时候,会使得均值对数据组集中趋势量数的代表性减弱。 ????中值?(median):数据组中所有数值的中点。数值个数的中间点(见图3[median, /articles/how-to-analyze-data-using-the-average/])。中值对极值不敏感。当数据组中存在一个或多个极值的时候,相比均值,中值能够更好地反映数据组的集中趋势量数。 ? 图3:中值示意 ????众数?(mode):出现次数最多的数值。见图4[mode, /articles/how-to-analyze-dat

文档评论(0)

tianma2015 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档