生物信息学医学数据.doc

下载文档 降价啦

3
0
约1.71万字
约 18页
2016-12-30 发布于贵州
举报
版权申诉
保障服务

生物信息学医学数据.doc

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

生物信息学在医学数据分析中的应用 1.前言随着信息技术的飞速发展，医疗数据以爆炸般的速度积累增长，特别是临床医疗数据的大量积累，但是如何有效的整合和利用这些数据进行科学研究，这就对有效数据的管理和挖掘提出了更高的要求。近年来，数据挖掘得到迅速发展，并逐渐应用到现实生活中，在分类分析方面表现相当出色，因此，已有专家将数据挖掘技术与基因表达数据分类问题相结合，发掘基因之间的关联联系，基因表达正常与非正常的活动范围，由此来理解基因表达的内在规律[1]，给疾病的诊断和预测、新特药的设计提供新的思路和方法。但目前医学数据的整合还存在以下问题：一是医院临床数据通常是分散存在的。分布于医院信息系统、检验信息系统、检查信息系统、电子病历系统等医院建立的各种信息系统当中，有的甚至存在于医生手写的随访记录本当中，这样分散存在的数据不利于收集、整合与分析。二是以往的临床科学研究都是以手工的方式去收集和整合数据，数据的可靠性和准确性得不到保证，而且容易产生数据丢失。与此同时，人工收集数据工作量大，数据采集速度慢、试验周期长的状况，这对临床科研数据的统计和分析结果的准确性提出来质疑。三是在对手工搜集到的分散的数据资源进行统计分析和查询的过程中，效率滞后，容易影响科研进度。针对上述几个问题，为确保收集数据的准确性、有效性和完整性，以便进行统计分析，基于临床科研的数据管理系统应运而生。 2. 支持向量机在医疗数据中的应用在疾病检测中，单一的生理信息不足以反映人体的健康状况，因此对多种生理信息综合分析是十分有必要的。在心脏病的诊断中就涉及诸如年龄、血压、心跳等几种，甚至几十种理化指标。医生综合这些检测的数据，根据自己的经验、知觉和见解等对人体的健康状况做出某种诊断。显然，这种诊断是主观性的，对同一个人，有时不同的医生甚至会做出截然相反的判别。多生理信息融合( Information Fusing)技术可以直接从原始样本数据出发建立某种规则模型，并将这种模型在计算机上实现，利用这一模型可以帮助医生对待测人体做出更客观、准确和及时的诊断[2]。用于建立模型的方法很多，其中支持向量机是近年来发展迅速的一种理论统计方法。支持向量机是在该情况下产生的一种新的、非常有力的机器学习新方法，是贝尔实验室研究人员Vapnik等人在统计学习理论三十多年的研究基础之上发展起来的一种全新的机器学习算法，也使统计学习理论第一次对实际应用产生了重大影响[3,4]。支持向量机是基于统计学习理论的结构风险最小化原则的，它将最大分界面分类器思想和基于核的方法结合在一起，在模式识别、信号处理、函数逼近等领域得到了应用[5,6]，表现出了很好的泛化能力。目前，支持向量机作为小样本学习的最佳理论，越来越多的应用于智能医学数据分析领域，成为当前智能医疗诊断研究的热点。其基本原理如下：支持向量机通过对待分类数据进行用核函数定义的非线性特征影射￠(x)： Rn→Z，将其映射到某一更高维特征空间Z中，从而能够线性可分，然后在新的特征空间Z中构造最优分类超平面，形成样本分类的决策规则（图1）。最优分类平面不仅要保证将两类样本错分个数最少，还要求分类间隔最大。错分个数最少保证了经验风险最小，从而使真实风险最小。但在一般情况下，这种低维向高维的变换，可能会比较复杂，不容易实现。考虑最优分类函数只涉及样本之间的内积运算，这样在高维空间也只需内积运算：而这种高维运算是可以用原空间中的函数实现的，我们甚至没有必要知道变换的形式。根据泛函的有关理论，只要一种核函数K(x，y)满足Mercer条件[7]，它就对应某一变换空间中的内积。因此在最优分类面中采用适当的核函数就可以实现某非线性变换后的线性分类，而计算的复杂度却没有增加。图1 支持向量机原理[7] 应用支持向量机进行分类研究克服了传统分类方法中存在的过学习、维数灾难、产生局部极小点及高维特征等问题，而且在小样本条件下仍然具有良好的推广能力，因而成为智能技术研究的新的热点[9]。SVM在模式识别、回归分析、和概率密度估计等机器学习方面获得了较好的效果，并且已经应用于文本识别、非线性回归建模、生物信息学领域等实际问题中[10,11,12]。 2.1支持向量机在心脏病中的应用利用SVM等对多生理样本信息进行融合处理，从而形成一种判断模型，根据模型可以对新加的数据做出某种判别。这种判别的能力好坏不仅取决于原始样本数据数量、完整性等，还和建立模型的工具方法有直接的关系。SVM具有良好的泛化性能、结构简单，因此是建立医疗诊断模型的有效方法。如今SVM广泛应用于癌症、高血压、心脏病等诸多的医疗诊断领域。可以相信以SVM建立的医疗模型将会成为辅助医疗诊断的重要工