北邮生物信息大作业.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

北京邮电大学信息与通信工程学院《生物信息基础(2015-2016)》课程大作业

一、疾病自动诊断问题

1、题目分析

根据题目要求,我们需要设计一套计算机自动筛选方案,目的是通过患者检测得到

的20项指标,分别判断患者的腹泻类型为病毒型腹泻还是细菌型腹泻。目前,我们已

有的训练集是经过专家筛选后的100例疑似患者的20项指标。其中,20位为病毒型腹

泻,80位为细菌型腹泻,即80位为细菌型腹泻。

因此,我认为该问题为一个监督下的模式分类问题,两个分类指标为“腹泻类型为

病毒型”、“腹泻类型为细菌型”,观测向量为得到的疑似患者的20项指标:

2、关键算法及分析

信息获取与预处理部分,在之前的检查中已经较为详细的给出,这一步不再设计;

特征选择与提取部分,我计划使用主成分分析方法,通过对20项标准进行线性组合,

可以得到更能够体现类间信息的新的一组观测向量;分类器设计采用Fisher线性判别分

析+最小错误率贝叶斯决策的方法。

主成分分析

主成分分析的思想是从一组特征中计算出一组重要性按从大到小顺序排列的的新

特征,它们是原有特征的线性组合,并且之间是互不相关的。

设为x的协方差矩阵,求解出矩阵的各个特征值与特征向量,则特征值最大的特征

向量,为数据集的最佳投影方向。由此方向投影,可获得最大的投影数据的方差。按照

这个思路依次找到次大的,第三的……特征值对应的特征向量,它们就是次优的,第三

优……的投影方向。

我们可以只提取重要性占前k%个主成分:

1

北京邮电大学信息与通信工程学院《生物信息基础(2015-2016)》课程大作业

我们把原始数据集按这些方向投影,得到的就是降维后的观测向量。选择较少的主

成分来表示数据,不但可以用作特征的降维,还可以用来消除特征中的噪声。

Fisher线性判别分析

Fisher线性判别分析的基本思想是:将所有的样本投影到一个方向上,然后在这个

一维空间确定一个阈值。选择最优的投影方向应该使得各个样本点的类内方差最小,类

间方差最大。我们定义类内离散度矩阵,类间离散度矩阵,投影向量,准则的目标函数

为:

这是一个约束条件下的极值问题,我们可以利用拉格朗日乘子法求解。拉格朗日函

数:

上式在极值点处,应该满足对w的偏导数等于零。可以解得:

式中,为Fisher线性判别准则下的最优投影方向。为两类的类均值向量。

由于Fisher线性判别分析不对样本的分布做任何假设,当样本维数较高样本数也较

多的时候,投影到一维空间后样本接近正态分布。这时可以在一维空间中使用正态分布

拟合样本,再使用上面提到的最小错误率贝叶斯决策,往往会有很好的效果。

最小错误率贝叶斯决策

最小错误率贝叶斯决策的决策规则为:

如果,则x属于w1,否则x属于w2。

其中,后验概率可以使用贝叶斯公式求得:

但是,将一个疑似患者判为病毒携带者和排除其患病可能性,其代价(损失)是不

一样的。对此,采用最小风险的贝叶斯决策。这种决策方法中,决策表是需要人为确定

的,需要认真分析研究问题的内在特点和分类目的,与疾病防控领域的专家共同决策,

设计出适当的决策表。

具体的决策步骤:

(1)利用贝叶斯公式计算后验概率

(2)利用决策表,计算条件风险:

2

北京邮电大学信息与通信工程学院《生物信息基础(2015-2016)》课程大作业

(3)决策:在各种决策中选择风险最小的决策,即

二、病毒变异与否的判断

1、问题分析

针对病毒变异与否的判断

文档评论(0)

传兵天下 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档