- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第3章分类模型
课程学习内容3.1分类模型的概念3.2分类模型的算法原理3.3基于Python的分类建模实例3.4基于Spark的分类建模实例
3.1分类模型的概念 分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型将数据库中的数据项映射到某个给定的类别。分类可以是二类别问题,也可以是多类别问题。 下面通过举例具体说明。银行经常需要判断用户的信用等级,以此判断是否通过贷款申请。在图中的历史数据集中,每一行对应客户的一条记录,作为记录样本。除了最后一列之外的每一列字段,如姓名、年龄、职业等是预测变量,是模型的输入。最后一列,信用等级作为目标变量,是模型的输出。目标变量的值域称为类标号属性。
3.1分类模型的概念
3.1分类模型的概念 将历史数据集划分成2部分:训练集和测试集。用训练集进行模型训练,确定模型参数。用测试集进行验证,检验模型的分类准确率。模型通过验证,准确率符合要求,即可部署。
3.1分类模型的概念 以2分类问题为例,P为正样本,N为负样本。定义:真正类数(TruePositive,TP):被模型预测为正的正样本的数量假正类数(FalsePositive,FP):被模型预测为正的负样本的数量假负类数(FalseNegative,FN):被模型预测为负的正样本的数量真负类数(TrueNegative,TN):被模型预测为负的负样本的数量
3.1分类模型的概念 可以根据以下指标衡量模型的性能:1.准确率(Accuracy)。 accuracy=(TP+TN)/(TP+FP+TN+FN),表示所有预测结果有多少是正确的。2.精确率(Precision)。Precision=TP/(TP+FP),表示 预测成正样本的结果中,有多少真的是正样本。3.真阳性率、召回率(TPR、Recall)。 Recall=TP/(TP+FN),表示实际的正样本中,有多少被正确预测了。4.真阴性率、特异度(TNR、Specificity)。 Specificity=TN/(TN+FP),表示的是实际的负样本中有多少被预测正确了。
3.1分类模型的概念5.假阴性率(FNR),FNR=1-Recall=FN/(TP+FN)。6.假阳性率(FPR),FPR=1-Specificity=FP/(TN+FP) 以上指标取值区间是[0,1]。虽然我们希望指标1~4越高越好,指标5、6越低越好,但实际并非如此。随着分类门限(threshold)的变化,分类模型的性能指标是相互制约、此消彼长的,以下的指标7、8则是综合性指标,同时考虑了多种因素。
3.1分类模型的概念7.F分数。计算公式为fβ=(β2+1)(Precision*Recall)/(β2Precision+Recall)。当β=1时,可以得到F1分数F1=2(Precision*Recall)/(Precision+Recall)。F分数同时考虑了精确率和召回率的因素,是一个综合性指标。对于F1分数而言,精确率和召回率都很重要,权重相同。当有些情况下,如果认为精确率更重要些,那就调整β的值小于1;如果认为召回率更重要些,那就调整β的值大于1
3.1分类模型的概念8.ROC曲线。 ROC曲线是反映召回率和特异度的综合性指标。如图所示,横轴代表了FPR,纵轴代表TPR,随着门限的减小,越来越多的样本被划分为正样本,但是这些正样本中掺杂着更多真正的负样本,导致FPR、TPR同时增大,反之亦然。为了衡量分类效果,可以求ROC曲线下面包围的面积(AUC)。AUC越大越好。AUC=0.5:说明模型与偶然造成的结果效果差不多;AUC0.5:说明模型不如偶然造成的效果;AUC0.5:说明模型较好。
3.1分类模型的概念
3.1分类模型的概念
3.1分类模型的概念
3.2分类模型的算法原理3.2.1决策树算法1.决策树的构建决策树是一棵有向的树,从根节点向下产生分支结构。以银行衡量信用等级的案例为例构建一个简单的决策树加以说明,如图
3.2分类模型的算法原理 用训练数据集构建的决策树得到下面的规则:如果年龄小于40岁,职业是学生或教师,那么其信用等级判断为优。如果年龄小于40岁,职业不是学生或教师,那么其信用等级判断为良。如果年龄大于40岁,月薪小于1000元,那么其信用等级判断为差。如果年龄大于40岁,月薪大于等于1000元,小于等于3000元,那么其信用等级判断为良。如果年龄大于40岁,月薪大于3000元,那么其信用等级判断为优。 再将这一规则用测试集的数据进行验证,如果性能指标满足要求,则可以实际应用部署。
3.2分类模型的算法原理2.决策树的生成方法有多种决策树生成方法:(1)I
文档评论(0)