如何选用统计学方法PPT.pptVIP

  • 4
  • 0
  • 约4.33千字
  • 约 18页
  • 2018-06-08 发布于江苏
  • 举报
如何选用统计学方法PPT

数据处理的一般原则 医学数据的统计处理涉及到医学专业知识、统计专业知识、处理数据的经验和技巧等各个方面,是一门很高超的艺术。在数据处理过程中,原始数据的采集和录入,数据的管理,恰当选用统计方法,熟练使用统计软件等,都是必须重视的关键环节。 原始数据的记录形式 原始数据的记录形式 原始数据中,变量分为标识变量和分析变量两种。 1.标识变量主要用于数据管理,包括数据的核对与增删等,是研究记录中不可缺少的内容,如上表中的“病人编号”和“病案号”即为标识变量。 2.分析变量则是数据分析的主要内容,上表中除上述2个标识变量外,其它9个变量均为分析变量。 分析变量又被分为反应变量(response variable)和解释变量(explanatory variable)。 反应变量是表示试验效应或观察结果大小的变量或指标。 解释变量又称指示变量(indicator)、分组变量(grouping variable) 、分类变量(categorical variable) 、协变量等。 根据研究目的以及变量间的相互关系,各变量的作用并非一成不变。 原始数据的录入 在进行统计分析前,原始数据需录入计算机。录入的文件类型大致有: 1.数据库文件,如dBASE、FoxBASE、Lotus、EPI info等;Excel文件; 2.文本文件,如word文件、WPS文件等; 3.统计应用软件的相应文件,如SPSS数据文件、SAS数据文件、STATA数 据文件等。 目前,上述文件类型绝大多数都可以相互转换。 录入数据时,应遵循便于录入,便于核查,便于转换,便于分析的原则。便于录入是指尽可能地减少录入工作量,例如,下图是前表原始数据录入为SPSS数据文件(数据.sav)的形式,录入时,用数值变量取代了字符变量(如图中的“性别”,“肾毒性”,“黄疸”,“昏迷”),可以大大节约录入的时间和费用。(如将性别标记为1=“男”,0=“女”)。 原始数据的录入 数据处理中的几个基本问题 2.离群数据的处理 当个别数据与群体数据严重偏离时,被称为离群数据(outlier)或极端数据(extreme value)。统计软件一般都有判断离群数据的方法。判断离群数据有多种方法,例如,SPSS软件对其的定义为:观察值距箱式图(box plot)的箱体底线(第25百分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距)的1.5倍至3倍时被视为离群点;观察值距箱体底线或顶线的距离超过3倍的箱体高度时被视为极端值。 若有离群数据出现,可分为两种情况处理: 一种是,如果确认数据有逻辑错误,又无法纠正,可直接删除该数据。例如,若某一数据中某病例的身高变量为“1755”cm,且原始记录亦如此,又无法再找到该病例时,显然这是一个错误的记录,只能删除。 另一种是,若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,并需要剔除,必须给以充分合理的解释,例如用何种方法确定偏离数据,该数据在实验中何种干扰下产生等。 数据处理中的几个基本问题 3.统计方法前提条件的检验: 应用参数方法进行假设检验往往要求数据满足某些前提条件,如两个独立样本比较t检验或多个独立样本比较的方差分析,均要求方差齐性,因此需要做方差齐性检验。 如果要用正态分布法估计参考值范围,首先要检验资料是否服从正态分布。 在建立各种多重回归方程时,常需检验变量间的多重共线性和残差分布的正态性。 统计方法选择的基本思路 数据处理中,正确选择统计方法至关重要。选择统计方法可以沿着以下思路进行。 第一个层面,看反应变量是单变量、双变量还是多变量。 对于前者,第二个层面看属于三种资料类型中的哪一种; 第三个层面看单因素还是多因素; 第四个层面看单样本、两样本或多样本; 第五个层面看是否是配对或配伍设计; 第六个层面看是否满足检验方法所需的前提条件。 单变量计量资料的分析 1.样本均数与总体均数比较 分析思路为:

文档评论(0)

1亿VIP精品文档

相关文档