- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分析1生存分析数据所想到的
分析一个存分析数据所想到的--出现的问题往往多于结论;从教科书可期待什么?;但是在实际中……;我们的数据;性别;病人诊断资料,如原发症状、原发部位、病理分级、B症状有无、国际预兆指数、国际预兆指数合并B症状、淋巴结大小、肿瘤M分期、WHO得分、分化程度、肿瘤T分期、淋巴结单双侧、肿瘤TNM分期等指标;病人治疗资料,如治疗方案、化疗方案、化疗周期;病人治疗近期效果资料,放疗疗效、化疗疗效、总初次治疗疗效;病人远期疗效资料,复发资料----是否复发、复发时间、复发部位、复发肿瘤的TNM分期,合并症资料----是否发生合并症、合并症发生时间,生存资料----是否死亡(指因癌症死亡)、生存时间。;我们面对的第一个决策问题;常规的分析方法 ;生命表;Kaplan-Meier方法;Kaplan-Meier方法;一些变量的三种检验结果;一些累积生存函数估计图;生存函数图(性别区分);生存函数图
(关于T分期);生存函数图
(关于初次疗效);生存函数图
(ipi和b症);生存函数图
(放疗疗效?);生存函数图
(化疗疗效?);Cox Regression;Cox Regression;Cox Regression;对这些结果的解释企图:;三种检验不一致时的解释 :;三种检验不一致时的解释 :;三种检验不一致时的解释 :;三种检验不一致时的解释 :;定序变量看作分类变量或者定量变量? ;最后我们发现结果和上面完全不同。作为分类变量处理时,“T分期”和“M分期”作为两个重要变量被筛选出来
而作为连续变量处理时,“国际预后指数(ipi)合并B症状”则是唯一被选中的变量;这种结果该如何解释?
哪个结果更可信呢?
问题是在什么情况下,定序变量可作连续变量来处理,什么情况可作分类变量来处理呢? ;对分类变量而言,常将缺失数据作为单独一组(如问卷调查中的“不知道”)
这种处理在数据整理中为保证数据的工整是无可指责的
但是如果在分析中依然将其作为单独一组参与分析,则可能对结果会有影响;而将缺失值不纳入分析时,输出为;数据量问题 ;从医学专业知识来判断,“有无转移”对于肿瘤预后而言是有显著影响的
那究竟是什么地方出了问题呢?
可以察看一下数据量
“有转移”的病例数为6例,其中有3例是删失数据,只有3例发生了终点事件,
“无转移”病例数有33例发生了终点事件,
拿这样两组人群进行比较时,由于一组人群数量太少而不能检出其差别。;数据量不够导致错误结论;数据量问题;分类数据的合并问题 ;分类数据的合并问题 ;分类数据的合并问题 ;混杂因素;;混杂因素;;混杂因素;用决策树方法(C5.0)进行分析
将“是否复发”(1为非复发,2为复发)作为目标变量,将其余20个变量作为X变量,分析这些X变量与“复发”的关系;用决策树方法进行分析 ;用决策树方法进行生存数据的分析,有两点要注意:
1)决策树方法是一种数据挖掘算法,它对于样本量的要求要比一般统计方法要大
2)决策树方法不能充分利用生存时间信息,其结果的可靠性有待商讨。
不过该方法还是可以作为规律初步探索的工具。 ;对于连续数据进行离散化时,如本例中的淋巴结大小,按照淋巴结的实际厘米数将病例划分为四组,none,3cm,3-6cm,6cm
这些分割点看上去是根据“专业经验”而选择的,它们不见得是合适的
如何确定分割点,而不是人为地、随意地进行指定呢?
或者根本没必要将连续变量进行离散?;许多分隔据说是鉴于医学经验
这些医学分隔又有没有统计的支持呢?
上面的分隔很规整:3cm、6cm及以上
类似于“无信息”先验分布
有没有“无信息”先验分布呢?
谁也说不清哪个空间是“原始空间”还是“变换后的空间”
下面的图形可能有些启发;“等间隔”和“内紧外松”的互相变换;“等间隔”和“外紧内松”的互相变换;“等间隔”和“下紧上松”的互相变换;“等间隔”和“下紧上松”的互相变换;把连续变量换成离散变量的现象非常普遍。这包括社会、经济、医疗卫生等几乎生活的所有方面
这是不是前计算机时代的以定性为主的思维方式的继续呢?
但可以肯定的是,离散化不仅失去大量信息、造成处理复杂化,而且必然会产生分隔点确定的合理性问题
也给产生各种“猫腻”留出了大量的空间?;二维列联表 ;二维列联表 ;从二维列联表分析…;列联表的相关性分析虽然无法和生存时间挂钩,但可以获得某些变量之间的相关性;比如
各种分期和各种疗效之间的关系
各种症状和各种疗效之间的关系
可以从错综复杂的关系中理出头绪
对列联表的分析在EDA阶段很有帮助;在分析这个数据时提出的问题可能比解决的更多
但这是正常的
我们的学生可能会证明复杂的理论
他们也可能会计算一些教科书上的习题和简单的例子
如果他们能够在分析实际数据时更加熟练和轻松??统计就不愁没有饭碗了;谢谢大家;Cox Regression
文档评论(0)