网站大量收购闲置独家精品文档,联系QQ:2885784924

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第4章 有监督学习.pptx

临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第4章 有监督学习.pptx

  1. 1、本文档共155页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 有监督学习1;;有监督学习算法多种多样,每种算法都拥有各自的优势和缺点,但是并没有一种有监督学习算法可以解决所有的有监督学习问题。有监督学习算法所构建的模型的效果受数据本身和算法参数的影响较大。 数据集在输入时会被转换为一个个特征向量,包含了许多关于描述该输入对象的特征。这些特征的数量如果不够多,则会导致模型的精度不佳,而过多的特征又会造成训练过程过于漫长以及过拟合等问题。 一些有监督学习算法需要人工调整参数才能使模型效果达到一个令人满意的地步,这些参数可以通过测试集或交叉验证来进行调整和优化。 目前被广泛使用的有监督学习算法有线性回归、逻辑回归、k近邻分类、决策树、支持向量机、朴素贝叶斯和人工神经网络等。 有监督学习算法的应用领域也很广泛,包括生物信息学、化学信息学、数据库营销、手写识别、信息检索、信息提取、计算机视觉、光学字符识别、垃圾邮件检测、模式识别、语音识别等。 ;;在有监督学习任务建立模型中,经常会把数据集拆分为训练集和测试集,训练集用以训练模型,调整模型参数;测试集用以验证模型的准确性,所以模型的性能是在测试集上度量的。 分类任务的常用性能度量指标包括正确率、错误率、精确率、召回率、F1度量和ROC曲线等。 ;正确率( )和错误率( )是分类任务中最常用的两种性能度量,正确率是指分类正确的样本占总样本的比例,错误率是指分类错误的样本占总样本的比例。对于样本集 ,其中 是 的真实标签, 是学习到的分类器,正确率定义如下。 其中 。 ;错误率定义为 。 更一般地,以二分类任务为例,可将样本根据真实类别与学习期分类结果的组合划分为真正、假正、真反、假反4种情形,令TP、FP、TN、FN分别表示其对应的样本数,则有TP+FP+TN+FN=总样本数。分类结果的“混淆矩阵”如表所示。;由上一页的混淆矩阵可得,正确??和错误率如下。;正确率和错误率虽然常用,但不能满足所有任务需求。实际问题中往往关心的是正例样本的分类情况,“精确率”(precision)和“召回率”(recall)是更为适合这类需求的性能度量,其定义如下。;精确率的含义是“预测结果为正的样本有多少实际也为正”,召回率的含义是“实际为正的样本中有多少样本的分类结果也为正”。精确率和召回率是一对矛盾的度量,一般来说,精确率高时,召回率往往偏低;而召回率高时,精确率往往偏低。采用F1度量把两个度量综合起来,定义如下。;在特定的情景下,对精确率和召回率的重视程度不同。例如,在推荐系统中,由于推荐页面的限制,希望在少样本推荐的情况下保证推荐结果是用户感兴趣的,此时精确率更重要;而在车辆是否故障判别的过程中,更希望尽可能少地漏掉故障车辆,此时召回率更重要。F1度量的一般形式——F值(F-score),能体现对精确率和召回率的不同重要性,定义如下。 其中 ,度量了精确率和召回率的相对重要性。 时即为 度量,此时精确率和召回率拥有相同的重要性; 时精确率重要性更高; 时召回率重要性更高。 ;很多分类器都会对测试样本返回一个分类概率值,然后将这个概率值与设定好的概率阈值作比较,若大于阈值则判断结果为正类,否则为反类。 ROC曲线也是一种常用的分类器性能度量。ROC曲线是基于真正率(TPR)、假正率(FPR)这两个值计算的,真正率、假正率的定义如下。 其中,真正率的计算方法与召回率的计算方法是一样的。;根据概率预测结果,将测试样本进行排序,把概率值大的样本排在前面,概率值小的样本排在后面;然后把逐个样本的概率值作为概率阈值,划分正类和反类,每次都计算得到真正率和假正率的值;这样得到一系列的真正率和假正率,以真正率为纵坐标,假正率为横坐标,描点连线得到曲线就是ROC曲线,如图所示。 在图中,左上角点 对应于将所有正例的概率值都比反例的要高的“理想模型”,曲线越靠近左上角说明模型性能越好。可以把ROC曲线量化成一个值进行精确比较——AUC值(Area Under Curve),即ROC曲线下的面积。一般AUC值在0.5~1之间,越接近1说明

您可能关注的文档

文档评论(0)

dllkxy + 关注
实名认证
内容提供者

本文库主要涉及建筑、教育等资料,有问题可以联系解决哦

版权声明书
用户编号:5213302032000001

1亿VIP精品文档

相关文档