数据分析的策略.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析的策略.doc

数据分析的策略 在研究设计思路指导下进行医学科学研究,研究结果常常以数据形式呈现,这些数据提供了丰富的信息。然而,如何从大量的看似杂乱无章的数据中萃取和提炼有用的信息,以揭示其中隐含的内在规律,帮助研究者进行判断或推理,还需要对这些纷繁复杂的数据进行分析。数据分析是分析和处理变量间关系的理论与方法,所涉及变量常被分为解释变量和反应变量,解释变量又称分组变量、协变量等,反应变量是表示试验效应的变量或指标。变量的观测值构成数据或资料,常有计量资料、计数资料和等级资料之分。 数据分析指的是对数据进行统计分析,就是根据抽样研究的方法,利用概率论与数理统计的原理,对样本信息进行分析和研究,从而对所研究的事物的统计规律性作出概率性的估计和推断。具体内容包括数据的变量变换、统计量的选择策略、参数估计与假设检验方法应用策略。 第一 数据的变量变换许多统计分析方法对数据有一定要求,如检验、检验,要求样本独立地来自正态总体,方差齐同;又如直线回归分析要求自变量与应变量呈线性关系,每个对应 的总体为正态分布,各个正态分布的总体方差相等,各次观测彼此独立。然而,仍有大量的医学资料往往不满足上述要求,在分析过程中对资料进行变量变换(transformation of variable)是解决问题的途径之一。恰当的数据变换可以一定程度上使资料满足统计分析方法的要求,如使资料符合正态化、方差齐同化、曲线直线化等要求。常用的变量变换方法有对数变换(transformation of logarithm)、平方根变换(transformation of square root)、平方根反正弦变换(transformation of inverse sine)、倒数变换(transformation of reciprocal)、概率单位变换(transformation of probability unit)、logit变换 (transformation of logit)、反双曲正切变换(transformation of inverse hyperbolic tangent)、得分变换(transformation of score)、box-cox变换(transformation of box-cox)等。 第二节 统计量的选择一、概念 统计量(statistic)是由样本观测值计算出来的,反映样本分布特征的指标。对反应变量特征的描述中,计量资料有集中趋势指标与离散程度指标,计数资料与等级资料有相对数指标;对于解释变量和反应变量间关系的描述,有互依关系指标、依存关系指标等。如何从众多统计量中选择适宜的统计量描述样本分布特征是至关重要的。 二、选择统计量的策略 数据分析涉及众多统计量,基于分析目的,通常依据资料类型、资料特征、解释变量和反应变量个数等来选择适宜的统计量。 表9-1 计量资料常用统计量的选择策略 反应变量数 资料特征 不同分析目的下的常用统计量 平均水平 变异程度 单个反应变量 单峰对称分布,尤其正态分布资料 算术均数 方差、标准差、变异系数* 单个反应变量 各种分布类型资料,但主要是偏态分布资料,分布一端或两端无确切数值的资料 中位数 四分位间距、全距 单个反应变量 等比级数资料,经对数变换呈对称分布资料,尤其对数正态分布资料 几何均数 — 多个反应变量 多元正态分布 均数向量 协方差矩阵 *主要用于度量衡单位不同或均数相差悬殊的多个变异程度的比较 表9-2 计数资料与等级资料常用统计量的选择策略 资料特征 主要分析目的 常用统计量 二分类计数资料 某现象发生的频率或强度 率 二分类或多分类计数资料、等级资料 某事物内部各组成部分所占比重 构成比 此外,相对比也是常用的派生统计量指标,是两个有关指标之比,旨在描述两个指标间比例关系。这两个有关的指标可以是基于计量资料、计数资料而计算出的统计量,也可以是某绝对数。 表9-3 解释变量与反应变量间关联性常用统计量的选择策略 解释变量()个数 反应变量()个数 资料类型 资料特征 主要分析目的 分析方法 常用统计量 1 1 计量资料 线性、独立、正态、等方差 与的线性依存关系 直线回归分析 回归系数 2 1 计量资料 线性、独立、正态、等方差 、、…与的线性依存关系 多元线性回归分析 偏回归系数 2 1 为计数资料、等级资料 非线性 各因素危险度大小 logistic回归分析 回归系数 优势比 2 1 截尾变量为计数资料;时间变量为计量资料 非线性 各因素危险度大小 Cox回归分析 回归系数 风险比 1 1 计量资料 线性、独立、二元正态、等方差 相关的程度与方向 直线相关分析 Pearson相关系数 1 1 计量资料或等级资料 不

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档