- 4
- 0
- 约7.98千字
- 约 20页
- 2018-06-01 发布于福建
- 举报
疾病确诊问题实证研究
题目:疾病确诊问题的实证研究
【摘要】
人们到医院就诊时,其是否患肾炎一般要通过化验人体内各种元素的含量来协助医生的诊断。为了更好地解决实际问题,我们建立了logistic回归模型、决策树模型以及判别分析。
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率等。本文中通过题设给出的两组人体内各种元素的含量,一组是有肾炎组,一组是非肾炎组,这里的因变量就是是否有肾炎,即“是”或“否”,为两分类变量,自变量包括,通过logistic回归分析,就可以大致了解到底哪些因素是判定肾炎的关键因子。决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。判别分析又称“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。
【关键字】 Logistic回归、决策树、多元统计分析、判别分析
问题重述
人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为非肾炎病人的结果。表2是就诊人员的化验结果。
需要解决的问题:
(1)、根据表1中的数据,给出一种或多种简便的判别方法,判别是否属于肾炎患者的方法,并检验你的方法的正确性;
(2)、按照 (1) 中给出的方法,对表2中的30名就诊人员的化验结果进行判别,判定他们是否肾炎病人;
(3)、能否根据表1的数据特征,确定哪些指标是关系到人们患肾炎的主要或关键因素,以便减少化验的指标;
(4)、根据 (3) 中的结果,重复 (2) 的工作;
(5)、对 (2) 和 (4) 的结果作进一步的分析。
们到医院就诊时,通常要化验一些指标来协助医生的诊断。本文借助肾炎这一病例以及相关数据对通常化验指标作出相关分析,帮助判断人们是否得肺炎,以助医生能更好地判断病情并作出相应的解释。
问题分析
2.1、模型定义
1到30号为有病,定义有病为Y=1,30到60号为没得肺炎,定义为Y=0.
2.2、模型构建
2.2.1、Logistic模型
变形为()=+
其中x为解释变量,Y为被解释变量,p为Y为1的条件概率。
2.2.2、决策树模型
决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。构造一个决策树分类器通常分为两步:树的生成和剪枝。其中树的生成是采用自上而下的递归方法。以多叉树为例,它的构造思路是,如果训练例子集合中的所有例子是同类的,则将之作为叶子节点,节点内容即是该类别标记。否则,根据某种策略选择一个属性,按照属性的各个取值,把例子集合划分为若干子集合,使得每个子集上的所有例子在该属性上具有同样的属性值。然后再依次递归处理各个子集。
2.2.3、判别分析
判别分析的基本假设有三个
1、每一个解释变量不能是其他解释变量的线性组合,即每个解释变量都是独立的
2、各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,他们是判别变量的简单线性组合。在各组协方差矩阵相等的假设下,可以使用很简单的公式计算判别函数和进行显著性检验。
3、各判别变量之间具有正态分布,即每个变量对于其他变量的固定值有正态分布。
判别分析主要有距离判别、贝叶斯判别和Fisher判别。本文使用距离判别和Fisher判别来进行分析。距离判别的基本含义就是判断样品到总体Y1,Y2的距离d1,d2,若d1d2,则样本属于总体Y2。距离判别使用的距离一般指马氏距离,即,,其中,,,分别为总体Y1,Y2的均值和协方差矩阵。Fisher判别的思想是投影,将k组p维数据投影到某一方向,使得他们的投影组与组之间尽可能的分开,这种方法借助了一元方差的思想。
2.3、模型解释
2.3.1、对于Logistic模型、决策树模型,主要利用SAS的enterprise、miner模块进行数据处理,变量的选择,模型的构建,模型的评价以及对样本的诊断。
建立如下的数据分析流程图:
数据挖掘流程图
第一个数据集(即第一个节点work.yaowu1)导入的是1-60号的样本,其中加入变量result,当id为1-30时,result=1,其他的为0。第二个数据集(work
您可能关注的文档
- 用友u9如何支持大规模快速开发UI表单.pdf
- 用紫外光谱分析测定饮料中咖啡因含量.doc
- 用电器作用.ppt
- 用友-未来企业信息化.ppt
- 甲型肝炎护理及.ppt
- 用对立统一观点看问题(上课).ppt
- 由于天馈接反导致网络指标异常案例分析.docx
- 甲瘤护理.ppt
- 申请2012年重点产业振兴和工业中小企业技术改造项目资金报告.doc
- 申请项目贷款3500万元”三查”报告.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 05G359-3悬挂运输设备轨道标准图集.pdf VIP
- 新学期教师培训会,校长发言:明边界守初心,知尺度有温度,让教育履职既合规又暖心.doc VIP
- 湖南省长沙市第一中学2024-2025学年高二上学期语文1月期末考试试卷(含答案).pdf VIP
- 2025年秋季学期学校全面工作计划.doc VIP
- T∕CHAS 10-2-22-2023 中国医院质量安全管理 第2-22部分:患者服务 疼痛治疗.pdf
- T_CNFMA B036-2024 户外林业机械 以锂离子电池为动力源的步进式松土机.pdf VIP
- T_CCTAS 237-2025 城市轨道交通市域快线车辆运营技术规范.pdf VIP
- 广告策划与创意(第2版):网络广告创意PPT教学课件.pptx
- 人体解剖学试题及答案.docx VIP
- 最后倒计时最后倒数(The Final Countdown) 高清钢琴谱五线谱.doc VIP
原创力文档

文档评论(0)