判别logistic回归分析二值响应二类样本判别分析.docVIP

  • 8
  • 0
  • 约3.64千字
  • 约 5页
  • 2017-08-24 发布于重庆
  • 举报

判别logistic回归分析二值响应二类样本判别分析.doc

判别logistic回归分析二值响应二类样本判别分析.doc

本文就是针对正常人与病人体内Zn、Cu、Fe、Ca、Mg、K、Na七种元素含量的不同,通过建立七种元素含量的数学模型,来寻找一种或多种方法来判断任意一个病例是否为病人。 在问题一的求解中,我们先后采 用了MATLAB中classify函数、FISHER判别准则、欧氏距离和协差阵距离判别法四种方法,通过把样本代入模型进行检验,发现均能达到较高的 正确率。然后我们从这四种方法中选出正确率最高的一个模型——即协差阵距离判别模型,来作为最终检验的依据。以此模型来对表B.2中从61到90号病例进 行判断,求得结果。 然后我们利用了t检验法对七种 元素进行判断,通过判断每种元素在病人和正常人身上含量是否差别显著来作为依据。若差别不显著,我们则认为在对最后结果的影响中可以对该元素不予以考虑。 如此我们找到了影响人们患肾炎的关键或主要因素,大大地简化了模型,减少了化验的指标。再利用新模型对B.2中的病例重新进行分析。 通过两个模型对同一组未知数据 的判断,我们最终对两次的结果进行了最后的分析。发现了两种模型各有优缺点。一种需要测量的元素种类较多,但结果相对准确;另一种操作简便,但误差相对较 大。因此我们最终得出结论,认为应结合实际情况,在不同情况下使用不同的模型。并且我们发现,该模型对于病人的判断准确率很高,因此又提出一种简便的判别 方法,即若病人的Ca含量偏高,则应对其用其他方法重新进行化验,以提高判别的准确性。 模型假设 1、假设病例没有其他疾病导致某种元素含量不正常。 2、假设所有人体格基本相差不大,因体格不同而引起的影响可忽略。 3、检测是在同等条件下进行的,即同样的外界环境和生理条件。 1.MATLAB 中 CLASSIFY 函数来求 在MATLAB、SPSS等软件中有现成的函数来判断这类问题,因此解决此问题非常简单,就把它放在第一位上了。在MATLAB中该函数的名字叫做classify。 用法是:CLASS = CLASSIFY(SAMPLE,TRAINING,GROUP) 2.FISHER判别 FISHER判别准则是一个被 广泛应用的准则,是一种常用的监督分类方法。它的准则是“组间最大分离”的原则,即要求组间(类间)距离最大而组内(类内)的离散性最小,也就是要求组间 均值差异最大而组内离差平方和最小。FISHER判别是利用一判别函数来进行最小距离分类的。当选用一次函数作为判别函数时为线性判别,本题中只用到了 Fisher线性判别。 设病人为A类,正常人为B类。设Zn、Cu、Fe、Ca、Mg、K、Na分别为1、2、3、4、5、6、7,则它们对应的系数分别为、 、 、 、 、 、 。 则每个病例均可求出一个R值: 作为判断该病例的准则。 首先求A类平均值和B类平均值,它们分别为: (其中i=1,2,3,4,5,6,7).. A类中心和B类中心分别为: 依照FISHER准则,要使A,B两类病例的R的均值之差越大越好,即使 为最大。 类内离差越小越好,即使 为最小。 把两个要求结合起来,就是要使: 为最大。因此, ~ 满足下列条件: (i=1,2,3,4,5,6,7) 于是我们推算出T与 、 、 、 、 、 、的关系式,再利用MATLAB求算出同时满足T对7个系数的偏导都等于0时的7个系数的实数解。具体步骤如下: 在MAPLE中输入 的表达式后,利用命令: eq1:=diff(T,a1)=0: eq2:=diff(T,a2)=0: eq3:=diff(T,a3)=0: eq4:=diff(T,a4)=0: eq5:=diff(T,a5)=0: eq6:=diff(T,a6)=0: eq7:=diff(T,a7)=0: solve({eq1,eq2,eq3,eq4,eq5,eq6,eq7},{a1,a2,a3,a4,a5,a6,a7}); 即求出 a1=0.000530906136342214 a2=-0.118465004411677 a3= 0.0159696486584355 a4= 0.0033349535094511 a5=- 0.00556834867026913 a6= 0.00123530639041636 a7=-0.00137863475060256 再继续算出A类和B类所有的训练样本计算两类的平均判别函数值: =0.202244545974639 =4.82866058587808 即得: =2.5154525659263595 此时,R0值就是区分A、B两类病例的标准,称为判别函数。当RR0的为正常人,RR0的为病人。 3.欧氏距离法 欧氏距离:即两项间的差是每个变量值差的平方和再平方根,其目的是计算其间的整体距离即不相似性。 设有两个总体B、A,其中,B为正常人总体,A为病人总体,从第一个总体中抽取30个样品,从

文档评论(0)

1亿VIP精品文档

相关文档