基于svm的乳腺肿瘤诊断分类算法.docxVIP

  • 4
  • 0
  • 约2.48千字
  • 约 3页
  • 2023-07-23 发布于广东
  • 举报
基于svm的乳腺肿瘤诊断分类算法 在这项工作中,提出了一种机器学习分类算法,并利用支持向量机(svm)进行建模和模拟,并优化了子的选择方法。使用拉普拉斯布鲁夫keel作为核函数,参数为0.8,惩罚系数为250.0,hingeloss作为损失函数。利用获取的模型测试数据集, 得到训练集分类准确率97.4%, 测试集分类平均准确率由传统模型的85.56%提升至97.22%, 平均训练轮数由5.4缩减至3.4轮, 该模型的性能有了显著的提高。 引言:医学数据分析过程的自动化程度急需提高, 分类器可作为很好的辅助。目前有许多应用于分类的算法, 相较逻辑回归, K近邻、随机森林、朴素贝叶斯、深度神经网络等, SVM分类算法有其优越性, 泛华推广能力好, 有效的解决了数据高维数、非线性以及训练时易陷入局部极小等问题。传统算法受各个数据集、训练参数的影响, 准确率低。本文旨在改进传统SVM分类器, 优化算法结构并调整参数。 1 以往的svm分割系统 1.1 传统分类器简介 分类决策函数为: yi为样本实际值。 SMO拉格朗日乘子选取方式: 为损失函数 核函数及惩罚系数C的选择方式: 传统分类器的核函数选用linear kernel。选取拉格朗日乘子时, 会遍历对象, 将第一个违反KKT条件的乘子作为α1;在不违反KKT条件的对象中, 选取使absolute loss最大的乘子作为α1。 1.2 不同表征属性的检测 本实验数据样本取自Breast Cancer Wisconsin (Prognostic) Data Set。此数据中的实例数量为569, 属性数量为32 (ID, 诊断, 30个实值输入特征) , 肿瘤诊断结果分为两类:良性 (357例) 和恶性 (212例) , 无缺少属性值。经筛选后使用实例537个。 当不同表征的数据尺度不同时, 模型参数易被量级大的数据支配, 因此要对属性值进行归一化, 处理后的属性值被均匀归一到[0, 1], 诊断结果benign (良性) 表示为+1, malignant (恶性) 表示为-1。 应用python进行仿真并使用五折交叉验证, 公式如下, 其中TP (True Positive) 表示判定结果是1, 事实结果也是1;FP, TN, FN同理。 用cross-validation和grid-search获得惩罚系数C的值, C取310时最优。 图1的横坐标为训练轮数, 纵坐标为平均错误率, 上图为训练结果的比较, 下图为测试结果的比较。结果表明传统SVM分类器平均训练准确率为85.000%, 测试准确率为85.556%, 平均训练周期为5.4, 平均支持向量22.4个。 2 改进后的svm分类系统 2.1 改进后的svm分类器的总结 SMO拉格朗日乘子选取方式: 核函数: 改进后SVM分类器的核函数为Laplace RBF kernel。在选取拉格朗日乘子时, α 2.2 wiconsin检测 与传统SVM分类器性能的检测一样, 验数据样本依然采用Breast Cancer Wisconsin (Prognostic) Data Set, 使用实例537个, 诊断结果benign (良性) 表示为+1, malignant (恶性) 表示为-1;对数据进行预处理归一化后, 应用python进行仿真, 使用五折交叉验证。 2.2.1 svm分类器参数 运用控制变量法, 仅改变分类器的核函数, 其余算法结构不变;利用cross-validation和grid-search, 比较Polynomial kernel、Gaussian kerne、Laplace RBF kernel、Sigmoid kernel等核函数, 得到最优的核函数Laplace RBF kernel及相关参数、相应惩罚系数, 然后比较两个分类器, 结果如图2所示。 改进核函数后的SVM分类器参数σ取0.8, 惩罚系数c取250, 支持向量个数为81。平均训练错误率仅为4.001%, 同比下降11.001%;平均测试错误率仅为3.51852%, 同比下降10.9264%;平均训练周期为4.4轮, 同比下降1.0轮。 2.2.2 两个分类器仿真 运用控制变量法, 仅改变分类器SMO拉格朗日乘子的选取方式, 其余算法结构不变, 分别对两个分类器仿真, 如图3所示。 改进乘子选取方式的S V M分类器, 平均训练错误率为13.15942%, 同比下降1.840%;平均测试错误率为13.14814%, 同比下降1.2969%;平均训练周期为3轮, 同比下降2.4轮。 3 标准结果对比 基于上文对传统SVM分类器的两组改进实验, 我们同时改进核函数与乘子的选取标准, 所得结果如图4所示。 综上所述, 传统算法和本文所提改进算法在评

文档评论(0)

1亿VIP精品文档

相关文档