支持向量机在2型糖尿病影响因素分析中应用.docVIP

下载本文档

16
0
约3.95千字
约 9页
2018-09-10 发布于福建
举报
版权申诉

支持向量机在2型糖尿病影响因素分析中应用.doc

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持向量机在2型糖尿病影响因素分析中应用

支持向量机在2型糖尿病影响因素分析中应用　　摘要目的：探讨支持向量机筛选疾病影响因素及构建基本预测模型的作用，为更好地运用支持向量机方法解决医学实际问题提供科学依据。方法：选取某社区电子健康档案2型糖尿病的数据资料，利用weka软件建立2型糖尿病影响因素拟合模型。结果：影响因素重要性从高至低前五位依次为家族史、BMI、年龄、心率、并发症。采用RBF核函数建立SVM预测模型，SVM模型的预测精度最高。讨论：支持向量机方法可实现对疾病相关因素的筛选和疾病预测模型的构建。　　【关键词】支持向量机 2型糖尿病影响因素　　由于现代人不良的饮食习惯和生活习惯，2型糖尿病的发病率和死亡率迅速上升。因此，分析2型糖尿病发生的影响因素来进行有效的预防和控制疾病的发生是糖尿病防治研究的重要内容之一。目前，常用的进行2型糖尿病风险评估的几种数学模型有灰色预测法、回归预测法、决策树法、神经网络法等，但这些方法都存在一些缺点，如多重检验、维度困扰、过度拟合、易陷入局部极小点等。为解决以上问题，本文提出采用支持向量机进行建模。支持向量机是在统计学习理论基础上发展而来的一种新的通用学习方法，在模型的复杂性和学习能力之间寻求最佳折衷，实现当前有限样本的最优解，模型泛化能力好，具有较强的容错性和自适应性等优势。　　1 资料与方法　　1.1 资料来源　　本研究中资料数据来源于浙江省宁波市某社区医院电子健康档案，选取该医院报卡日期在2009年―2013年间，且在进行管理的2型糖尿病患者的信息。全部数据经电子健康档案系统以Excel表形式导出，并进行数据处理，对有缺失值和不符合逻辑的病例进行剔除，共计有效样本1685例，占全部病例的87.40%。　　1.2 研究方法　　采用SPSS19.0建立数据库，根据有关2型糖尿病及其风险因素研究的相关文献，选出与2型糖尿病相关的影响因素，包括患者的基本信息、诊断信息、常规检查信息、生活习惯、环境因素、遗传因素等，建立基于支持向量机的预测模型。以2型糖尿病判别效果评估为依据，筛选出2型糖尿病的风险因素及影响程度。　　1.2.1 支持向量机　　支持向量机（support vector machine，SVM）分类方法在实际二类分类问题的应用中显示出良好的学习和泛化能力，现已被广泛应用于诸多研究领域在医药卫生领域中，如信号分类、图像处理、疾病诊断等也有相关介绍。SVM 算法是最终转化为一个二次型寻优问题，理论上得到的是全局最优解，具有无局部最小点、预测可靠性高且泛化能力强的特点。与传统统计学方法相比，它是一种专门研究有限样本情况下机器学习规律的理论，在解决小样本、非线性及高维模式识别中表现出特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。　　SVM 是从线性可分情况下的最优分类面发展而来的，其基本思想是先通过非线性变换把原数据空间变换到某一高维的特征空间，然后在这个新空间中求取最优线性分类面。这种非线性变换通过定义适当的内积函数加以实现。　　核函数的选择是影响支持向量机的学习性能和泛化能力的关键。SVM模型中常用的核函数有以下几种：　　（1）线性核函数（Linear Kernel）：　　K（x，y）=x?y。　　（2）多项式核函数（Polynomial Kernel）：　　K（x，xi）=[γ*（x?xi）+coef]d，其中d为多项式的阶，coef为偏置系数。　　（3）径向基核函数（ Radial basis function）：　　K（x，xi）=exp（-γ||x-xi||2），其中 γ为核函数的宽度。　　（4）Sigmoid核函数（两层神经网络）：K（x，xi）=tanh（γ（x?xi）+coef）。　　2型糖尿病样本集属于非线性问题，因此在核函数选择上主要采用多项式核函数和径向基核函数进行建模分析。通过实验确定分类效果较优的核函数。　　1.2.2 数据预处理　　将健康档案中患者的基本信息、诊断信息、常规检查信息、生活习惯、环境因素、遗传因素等数据作为筛选因素变量。将2型糖尿病诊断结果作为因变量。研究变量及其量化方法详见表1。其中，BMI，舒张压、收缩压、甘油三酯、总胆固醇、高密度脂蛋白，低密度脂蛋白、每月动物油食用量、每月植物油食用量、每月食盐食用量以及心率均根据标准参考值进行分类。　　1.2.3 SVM模型的建立　　通过系统抽样将全部有效样本1685例按7：3的比例随机分为训练集和测试集，即训练集和测试集分别为1180例和505例。　　经过数据的预处理，选择不同核函数类型分别建立模型。核函数的确定是建立在样本的基础上，同时需考虑各参数的影响。通过实验过程中对参数大小的调整，观察预测误差随核权重的