- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
卫生统计学综合复习.doc
统计学复习
基本概念部分
总体和样本
观察单位
随机样本和非随机样本的随机化
变量、随机变量;变量的类型
连续变量:有单位,理论上变量值可以充满区间。
分类变量:属性。
无序分类变量,虽可以用数值表示第几类,但数值无意义,只是代号。
有序分类变量,虽可以用数值量化,但数值的大小无意义,意义在于数值之间的间距和顺序关系。
计数变量:特点是离散、有序。某些情况下可以按连续变量处理。
实际频数分布
观察单位个数的分布。
连续变量要按变量值分组段,总结各组段观察单位的个数。
计数变量要按观察时间单位、面积单位总结计数变量值本身。
分类变量要按类别总结观察单位的个数。
实际上,后面两种变量在只有一次抽样时无法完成实际频数分布的刻画。
数据的集中趋势和离散趋势
集中趋势
连续变量对称分布:算术平均数(简称均数)+中位数。连续变量非对称分布:中位数。
分类变量:具有所关心特征(类别)的观察单位的个数(频数)。百分构成(比例)、率、比。
计数变量:单位时间、单位面积内所关心事件的发生数。求和问题。
离散趋势:衡量距集中趋势远近的程度
连续变量对称分布:离均差平方和、方差、标准差。连续变量非对称分布:百分位数间距。
抽样变异和抽样分布
抽样变异:反复抽样后,每个样本都是不同的。反复抽样指每次抽样的样本量相同。
抽样分布:反复抽样后,样本集中趋势的分布。对于连续变量样本标准差当然也是有分布的,但本处不考虑。
连续变量:样本均数的分布—按样本均数值分组段,总结各组段样本的个数。
分类变量:具有所关心特征(类别)的观察单位的个数(频数)的分布—按观察单位的个数总结样本的个数。
计数变量:单位时间、单位面积内所关心事件的发生数的分布—按发生数总结样本的个数。
抽样分布的集中趋势和离散趋势
连续变量:反复抽样样本均数的均数—集中趋势;反复抽样样本均数的标准差(标准误)—离散趋势。
分类变量:反复抽样样本具有所关心特征(类别)的观察单位的个数(频数)的均数—集中趋势;具有所关心特征(类别)的观察单位的个数(频数)的标准差(标准误)--离散趋势。
计数变量:反复抽样样本单位时间、单位面积内所关心事件的发生数的均数—集中趋势;反复抽样样本单位时间、单位面积内所关心事件的发生数的标准差(标准误)--离散趋势。
相对频数分布和概率分布(请只考虑抽样分布)
各组段样本数占总样本数的比例的分布。
当反复抽样样本的样本量足够大时,相对频数分布逼近概率分布(理论分布)。
各种各样的理论分布
原始数据分布
正态分布、对数正态分布、二项分布、泊松分布等等。
抽样分布
当样本量足够大时,任何原始数据分布的抽样分布均逼近正态分布(中心极限定理)。
标准正态分布
正态分布数据的标准化。对于连续变量还涉及t分布。
正态分布(含标准正态分布和t分布)的性质
样本信息对总体的统计推断(请只考虑集中趋势的推断)
所有的推断均是基于抽样分布的。
要求随机(大)样本
区间估计
连续变量:样本均数推断总体均数;利用样本均数的标准差(标准误)构建总体均数的可信区间。
分类变量:样本百分构成(比例)、率、比推断总体相应参数;利用标准误构建相应总体参数的可信区间。
计数变量:样本单位时间、单位面积内所关心事件的发生数推断总体相应参数;利用标准误构建相应总体参数的可信区间。
假设检验:评价样本来自于某参照总体的可能性。
无效假设:用来推翻的假设。如:假设样本来自于某参照总体。
备择假设:用来接受的假设,是与无效假设的对立的假设。如:假设样本不是来自于某参照总体。
检验水准:评价上述可能性是大还是小的标准。如可能性小于检验水准则拒绝无效假设,接受备择假设。反之,则说明尚无足够证据推翻无效假设。检验水准有单侧和双侧之分。
界值:对应于检验水准的某分布上的百分位数。
其他基本概念
观察性研究和实验性研究、前瞻性研究和回顾性研究、纵向研究和横断面研究、定群研究和病例对照研究、对照、双盲;小概率事件、P值、I型错误和II型错误、检出力、多重检验问题;相关关系和因果关系、残差。
基本计算部分
连续变量的均数、离均差平方和、方差(含均方)、标准差、标准误、百分位数(含中位数)。
二分类变量的百分构成及其标准误、Relative Risk(RR,相对危险度)、Odds(比数)及Odds Ratio(OR,比数比)
统计推断中的计算
总体均数(率)的可信区间的构建。
正态法或正态近似法:大样本或满足某些条件时。
对于连续变量还可以利用t分布。
假设检验中检验统计
文档评论(0)