有关缺失数据统计分析要点.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
有关缺失数据统计分析要点

有关缺失数据统计分析要点摘要:缺失数据有许多可能的来源,影响整个受试者或特定项目。缺失数据可能有许多原因,其中并不都与研究相关。可以出现不同程度的数据不完整。即可能只有基线测定值。或可能漏了一个或几次随访评价。即使完成了研究方案,仍可能有些数据未收集到。对缺失值有不同的调整方法,不同的方法各有特点。本文将围绕上述问题进行讨论。 关键词:缺失数据;统计分析;要点 缺失数据违反严格的原则,即:测定所有的结果而不论其是否遵守方案;按照分配的进行分析而不论实际接受的如何。全分析集一般需要填补未记录的数据的值。实际上,即使是符合方案集可能也需要使用某些填补的值。 一、缺失数据的弥补方法 方差分析的数据一般是按计划安排试验得到的,在实际工作中可能发生这种情况,由于意外的原因而使试验计划没有完整的完成,实验数据与计划相比缺失一个或两个,补做试验又不可能,进行方差分析必须有完整的数据才能计算,但我们不能因为缺失一两个数据而使其他大部分数据白白浪费,这就需要给出缺失数据的估计值,用估计值代替弥补成完整的数据以便计算。 二、缺失值对数据分析和数据解释的影响 如果简单地从分析中排除有缺失结果的所有患者来处理缺失值,则以下问题会影响试验结果的解释。 1.把握度和变异 样本量和结果变异影响临床试验的把握度。样本量越大则把握度越大,并且变异越小。由于数据不完整而减少可用于分析的有效可能会导致统计学把握度降低,缺失值的数量越大则把握度降低越明显。此外,数据不完整者有极端值的可能性更大。因此这些数据不完整者的缺失会导致变异被低估,因此人为地使统计结果的可信区间变窄。 2.偏倚 偏倚是由缺失数据所导致的最重要的担心。虽然统计学把握度的降低主要与缺失值的数量相关,但估计治疗作用时偏倚的风险取决于缺失、治疗和结果之间的关系。 在多数情况下,很难或不可能阐明缺失值和未观察的结果变量之间是否完全无相关性。因此最好是采用保守的方法,把缺失值当作偏倚的一个潜在来源。 填补缺失数据的另TO简单的方法是以其他来源的推导值替代未观察到的测定值。可能的来源包括同一受试者和基线特征相似的其他受试者的信息、根据经验建立的模型预测的值、历史数据等。 大多数方法通过估计中心值而忽略其不确定性,因而有使标准误减小的偏倚风险。某些根据最大似然法并有多次填补方法的技术可以避免这种风险。由于最大似然法有多次填补的方法,因此被建议用于填补缺失值。根据最大似然法的策略通过一种反复的程序(例如预期最大化算法)拟合模型。多次填补方法得出多个原始数据集的副本,通过随机生成的值取代缺失值,并作为完整的数据集对它们进行分析。 有些统计学方法对存在缺失数据不敏感。固定效应模型被建议用于各种情况,例如不同时间反复测定结果以及测定时间被看作随机变量时;这些模型可以估计总结每例效果的斜率。当结果测量是至事件的时间时,可以使用生存率模型,该模型考虑的是审定的观察值。但这些方法假定缺失结果之间没有相关性,而一般不能做出这种假设。 三、一般建议 遗憾的是,目前没有被普遍接受用于处理缺失数据的方法。尽管如此,在处理缺失数据时有一些原则应当予以考虑。 1.避免缺失数据 由于存在缺失值会带来许多大的困难,随着缺失值的数量增多,这些困难进一步加大。因此可以通过以下方法尽最大可能避免出现未观察到的结果,这极为重要。预测试验中可能出现的缺失值的数量可能会有用。有关可以接受的缺失值的最大数量没有具体的规定。 处理缺失值没有普遍适用的方法,不同的方法可能会得出不同的结果。因此在研究方案的统计部事先指定选定的方法非常重要。这一部分还应当详细描述选用的方法,说明所用方法是最佳方法的依据。而且,强烈建议估计预见的和数量可以接受的缺失数据:首先因为这对样本量的计算有影响,其次因为随着缺失值的数量增加,填补方法的可靠性更加不确定。总结报告必须记录与预期的缺失值数量的各种偏差,并讨论事先指定的分析是否仍有说服力。 确保选用的方法是一种保守的方法,并且并非有利于研究的工作假设(有意的或无意的),这非常重要。 由于某些困难是不可预测的,因此在统计学分析计划中或在试验结束后设设置分析数据时,可能需要对处理缺失值的策略进行修改。应当记录与事先指定的计划相关的偏差及修订部分,并提供依据。此外,必须清楚地说明这些偏差和修订决定和执行的时间点与数据揭示时间的关系。 2.缺失数据的分析 注意是否有提示不同治疗组之间缺失值的出现比例和时间有差异,这可能有用。还应当进行分析,以明确缺失数据是否在各种相关因素中不平衡以及有缺失数据和无缺失数据的基线特征是否不同。 3.灵敏度分析 灵敏度分析――显示缺失数据不同处理方法对研究结

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档