- 4
- 0
- 约2.48千字
- 约 3页
- 2023-07-23 发布于广东
- 举报
基于svm的乳腺肿瘤诊断分类算法
在这项工作中,提出了一种机器学习分类算法,并利用支持向量机(svm)进行建模和模拟,并优化了子的选择方法。使用拉普拉斯布鲁夫keel作为核函数,参数为0.8,惩罚系数为250.0,hingeloss作为损失函数。利用获取的模型测试数据集, 得到训练集分类准确率97.4%, 测试集分类平均准确率由传统模型的85.56%提升至97.22%, 平均训练轮数由5.4缩减至3.4轮, 该模型的性能有了显著的提高。
引言:医学数据分析过程的自动化程度急需提高, 分类器可作为很好的辅助。目前有许多应用于分类的算法, 相较逻辑回归, K近邻、随机森林、朴素贝叶斯、深度神经网络等, SVM分类算法有其优越性, 泛华推广能力好, 有效的解决了数据高维数、非线性以及训练时易陷入局部极小等问题。传统算法受各个数据集、训练参数的影响, 准确率低。本文旨在改进传统SVM分类器, 优化算法结构并调整参数。
1 以往的svm分割系统
1.1 传统分类器简介
分类决策函数为:
yi为样本实际值。
SMO拉格朗日乘子选取方式:
为损失函数
核函数及惩罚系数C的选择方式:
传统分类器的核函数选用linear kernel。选取拉格朗日乘子时, 会遍历对象, 将第一个违反KKT条件的乘子作为α1;在不违反KKT条件的对象中, 选取使absolute loss最大的乘子作为α1。
1.2 不同表征属性的检测
本实验数据样本取自Breast Cancer Wisconsin (Prognostic) Data Set。此数据中的实例数量为569, 属性数量为32 (ID, 诊断, 30个实值输入特征) , 肿瘤诊断结果分为两类:良性 (357例) 和恶性 (212例) , 无缺少属性值。经筛选后使用实例537个。
当不同表征的数据尺度不同时, 模型参数易被量级大的数据支配, 因此要对属性值进行归一化, 处理后的属性值被均匀归一到[0, 1], 诊断结果benign (良性) 表示为+1, malignant (恶性) 表示为-1。
应用python进行仿真并使用五折交叉验证, 公式如下, 其中TP (True Positive) 表示判定结果是1, 事实结果也是1;FP, TN, FN同理。
用cross-validation和grid-search获得惩罚系数C的值, C取310时最优。
图1的横坐标为训练轮数, 纵坐标为平均错误率, 上图为训练结果的比较, 下图为测试结果的比较。结果表明传统SVM分类器平均训练准确率为85.000%, 测试准确率为85.556%, 平均训练周期为5.4, 平均支持向量22.4个。
2 改进后的svm分类系统
2.1 改进后的svm分类器的总结
SMO拉格朗日乘子选取方式:
核函数:
改进后SVM分类器的核函数为Laplace RBF kernel。在选取拉格朗日乘子时, α
2.2 wiconsin检测
与传统SVM分类器性能的检测一样, 验数据样本依然采用Breast Cancer Wisconsin (Prognostic) Data Set, 使用实例537个, 诊断结果benign (良性) 表示为+1, malignant (恶性) 表示为-1;对数据进行预处理归一化后, 应用python进行仿真, 使用五折交叉验证。
2.2.1 svm分类器参数
运用控制变量法, 仅改变分类器的核函数, 其余算法结构不变;利用cross-validation和grid-search, 比较Polynomial kernel、Gaussian kerne、Laplace RBF kernel、Sigmoid kernel等核函数, 得到最优的核函数Laplace RBF kernel及相关参数、相应惩罚系数, 然后比较两个分类器, 结果如图2所示。
改进核函数后的SVM分类器参数σ取0.8, 惩罚系数c取250, 支持向量个数为81。平均训练错误率仅为4.001%, 同比下降11.001%;平均测试错误率仅为3.51852%, 同比下降10.9264%;平均训练周期为4.4轮, 同比下降1.0轮。
2.2.2 两个分类器仿真
运用控制变量法, 仅改变分类器SMO拉格朗日乘子的选取方式, 其余算法结构不变, 分别对两个分类器仿真, 如图3所示。
改进乘子选取方式的S V M分类器, 平均训练错误率为13.15942%, 同比下降1.840%;平均测试错误率为13.14814%, 同比下降1.2969%;平均训练周期为3轮, 同比下降2.4轮。
3 标准结果对比
基于上文对传统SVM分类器的两组改进实验, 我们同时改进核函数与乘子的选取标准, 所得结果如图4所示。
综上所述, 传统算法和本文所提改进算法在评
您可能关注的文档
最近下载
- 重庆天齐锂电新材料有限公司新建1000吨_年高能锂电材料电池级金属锂项目环评报告.pdf VIP
- DB65T 3694-2015 现行哈萨克文与西里尔哈萨克文编码字符转换规则.docx VIP
- TGXAS 1044-2025《中医护理三级查房规范》(发布稿).pdf VIP
- 华为云服务登录.doc VIP
- 采砂场工业用水水资源论证论证表详解.doc VIP
- Onkyo安桥TX-NR828中文说明书.pdf
- 采砂场工业用水水资源论证论证表分析报告.doc
- 【中考】2025年广东佛山数学试卷(原卷+答案).docx VIP
- 2021年广东省佛山市中考数学真题及答案.pdf VIP
- SpaceX火星探索任务成本预算与风险管理分析报告.docx
原创力文档

文档评论(0)