- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新疗法组的标准化病死率: 一般疗法组的标准化病死率: 经标准化后,新疗法和一般疗法两组的病死率是相同的,与分病型比较的结果一致。 标准化法解决了由于患者病型构成不同而导致的合计病死率与分病型比较相矛盾的问题。 3. 正确理解可比性问题 应该怎样正确理解“可比性”问题? 比较A、B两地区肺癌死亡率的高低,总的肺癌死亡率A地区高于B地区,但B地区各年龄组肺癌死亡率却均高于A地区。 Why? 原因: 由于肺癌死亡率与年龄有关,通常随年龄增高而增高; A、B两地区各年龄组人口构成不同,A地区高年龄组人口构成大于B地区,这就造成了A地区总的肺癌死亡率高于B地区; 上述矛盾是因为两地人口年龄构成不同造成的。 A、B两地区肺癌死亡率到底谁高谁低? 直接比较肺癌死亡率: A地 B地 比较标准化肺癌死亡率: B地 A地 消除年龄的影响后 Question: 无疑,A地区肺癌死亡率高于B地区 因此,所谓可比性问题其实与研究目的有关。 如肺癌一例,假定已知年龄是肺癌死亡率的影响因素,如果想探索除了年龄之外还有没有其它因素影响肺癌死亡率,那么就应该对年龄进行标准化(如果标化后A、B两地肺癌死亡率相同,则说明年龄是影响肺癌死亡率的唯一因素)。 但如果研究目的并非探讨分组因素对研究指标的影响或作用,谈论可比性就没有意义,也没有必要去调整其它混杂因素的影响。 因为A地区肺癌死亡率高于B地区是一个不争的事实。 换言之,单纯描述谁高谁低无需进行调整,只是在进一步探究导致高低不同的归因(所谓因素分析)时才对混杂因素进行控制或调整。 4. 数据的分组问题 另一个在数据分析时特别值得注意的问题就是分组或分类问题 它既是数据整理的主要内容,也是数据分析的基础。 生存分析 是一类较为特殊的针对具有截尾数据的生存时间数据所进行的分析。 它也包括统计描述和统计推断两个部分的内容,针对分组和未分组资料,方法又有所不同。 二、统计分析需注意的若干问题 1. 数据分析通常的步骤: 数据探测 统计描述 统计推断 数据探测 数据探测常常是进行统计描述和统计推断的基础。 如数据分布特征的考察、方差齐性的判断、散点图的绘制、离群值的发现,以及了解数据是否符合特定统计方法的应用条件等,必要时可进行变量变换或转换以满足分析的需要。 数据探测将增加对数据的基本了解,为进一步的分析奠定基础。 统计描述 统计描述:计算各种统计指标和运用各种统计图表描述和概括数据的数量特征及分布规律。 首先需要区分变量类型,定量变量和定性变量的统计描述指标是不同的。 对于定量变量,根据数据分布特征的不同,可分别采用正态分布和百分位数方法对数据进行描述以及确定观察值分布范围等。 对于定性资料,根据分析目的,可计算率、构成比或相对比等指标。 统计推断 在数据探测和统计描述的基础上选择恰当的统计推断方法分析资料。 区间估计: 总体均数的区间估计,根据已有条件的不同如样本大小的不同,可采用t分布或正态分布原理进行估计。 总体率的区间估计,一般也是根据样本大小的不同以及样本率的大小,采用二项分布、Poisson分布或正态分布原理进行估计。 2. 混杂因素的控制 学习统计学必须学会在研究设计和数据分析时控制混杂因素的方法,使得比较的各组除了研究因素之外,其它因素尽可能地相同或相似。 这样,各组观测指标之间的差异只能归因于研究因素而不是其它原因。 如果各组在研究因素之外的某种或某些因素有所不同,那么这个或这些其它因素的效应就可能同研究因素的效应混淆在一起。 在这种情况下,通常的统计分析结论在进行因果推断时常常是不可靠的。 “可比性”问题是在数据分析和结果解释时必须加以考虑的一个十分重要的问题。 对于不具可比性的资料,基本的统计调整技术就是采用分层分析或标准化方法消除其它非研究因素的影响, 对于具有多个变量的复杂情况,则需采用多变量分析技术加以调整。 我们需要考虑: 有哪些因素与研究的因素混杂在一起? 怎样调整这些混杂因素? 分层分析 Example:研究吸烟与健康的关系 吸烟与非吸烟者死亡率的比较 吸烟者与不吸烟者死亡率的直接比较可能存在问题。 因为: 吸烟者多为男性,而男性比女性更易患心脏病而发生死亡,吸烟者与未吸烟者之间死亡率的差异也许是因为性别的差异。 为了排除这种可能性,可: 吸烟男性与不吸烟男性进行比较 吸烟女性与不吸烟女性进行比较。 即以性别因素分层,再比较吸烟与非吸烟者的死亡率。 此即分层分析(分层因素:性别) 年龄可能又是另外一个混杂因素,这就需要对年龄进行分层分析。 这就是通常的分层分析思路,但这并不能保证这样分析的结论一定是正确的。 吸烟与肺癌关系的一项横断面研究 收集资料:每个人年龄、性别、是否
文档评论(0)