分类器的评估分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类器的评估分析

判定为p类的阈值随考察的观测对象逐渐下降 * 如果分类模型有效,排在前面的数据中实际为GOOD的记录比排在后面的数据中要多一些。 * 决策的阈值:T=1/(1+1/B) (T=C(-,+)/(C(-,+)+C(+,-)) 例如:预测正确一个正值 收入1(即将一个正值预测为负值的代价为1),将一个负值预测为正值代价为5 则决策阈值=1/(1+1/5)=5/6 如果C(-,+)〉C(+,-),则提高阈值,否则降低阈值 * 装袋:如果基分类器是不稳定的,装袋可以减少由于训练数据的随机波动导致的误差,可以提高预测性能,而对于稳定的基分类器,则不一定,甚至可能降低分类器的性能(因为抽样后训练集实际包含的不同观测数降低,为原来的0.632) Adaboost是最流行的提升算法,初始每个观测的权重都赋值为1/n,抽样形成训练集时,抽中的机会和权重有关,本轮分类错误的观测权重增加,分类正确的观测权重减小,模型的误分类率为每个观测的加权误分类和(如果误分 类率过大,则丢弃该模型) 分类器Mi的表决权重为log(1-err(Mi)/err(Mi),最终决策结果为具有最大权重和的类 随机森林:通常每个树选择log2 d +1个属性,也可以利用属性的组合。将装袋与属性选择结合。 * 欠抽样可能造成某些有代表性的负样本未抽出,因此应进行多次抽样,并采用组合分类技术进行纠正。 混合抽样技术:对正类进行过抽样,对负类进行欠抽样 * 分类器的评估 张英 混淆矩阵与分类准确率 多分类问题的混淆矩阵 预测结果类 c1 c2 …… ck 总 实 际 类 c1 c2 …… ck 总 n 准确率 误分类率 分类模型的评价指标 1. 准确率与误分类率 准确率 =(tp+tn) )/(tp+fn+fp+tn) 误分类率=(fn+fp)/(tp+fn+fp+tn) 真正率(灵敏度) =tp/(tp+fn) 真负率(特指度) =tn/(fp+tn) 假正率 =fp/(fp+tn) 假负率 =fn/(tp+fn) 二分类问题的混淆矩阵 预测结果类 + - 总 实 际 类 + tp fn tp+fn - fp tn fp+tn 总 tp+fp fn+tn tp+fn+fp+tn 不平衡分布类 二类分类问题的混淆矩阵 预测结果类 +10 -90 实 际 类 +5 ++ (tp)3 +- (fn)2 -95 -+ (fp)7 — (tn)88 误分类率:9% 真正率:60% 评估指标 2. 精度 P=tp / (tp+fp) 3. 召回率(真正率、灵敏度) R=tp/(tp+fn) 4.FSCORE 精度和召回率 的调和均值: 召回率和精度的权重相同: F = 2RP/(R+P) 将召回率的权重设为精度的β倍: 二分类问题的混淆矩阵 预测结果类 + - 总 实 际 类 + tp fn tp+fn - fp tn fp+tn 总 tp+fp fn+tn tp+fn+fp+tn 评估指标 二分类问题的误分类代价 预测结果类 + - 总 实际 类 + C(+,+) C(+,-) C(+,+)*TP+C(+,-)*FN - C(-,+) C(-,-) C(-,+)*FP+C(-,-)*TN 误分类代价 (成本或收益) 误分类代价对称 C(+,+)=C(-,-)=0 C(+,-)=C(-,+)=1 误分类代价不对称 关注预测为正类 成本角度 收益角度 二分类问题的混淆矩阵 预测结果类 + - 总 实 际 类 + tp fn tp+fn - fp tn fp+tn 预测性能评估指标的选择 平衡分布类,对称误分类代价 准确率、误分类率,精度 不平衡分布类,对称误分类代价 精度,召回率,FSCORE 不对称误分类代价 成本或收益 模型评估方法 Hold方法 将数据分成训练集和验证(测试)集,一般按照2:1比例划分,以验证集指标进行评估; 多次随机采样 进行N次上述(1)的随机采样,然后计算N个测试精度的平均值 自助法(bootstrap)(最常用的.632自助法) 进行N次有放回的均匀采样,获得的数据集作为训练集,原数据集中未被抽中的其它观测形成验证集。可重复K次,计算准确率: 模型评估方法 交叉验证 数据集小的时候,可将数据集分成K个不相交的等大数据子集,每次将K-1个数据集作为训练集,将1个数据集作为验证(测试)集,得到K个测试精度,然后计算K个测试指标的平均值。 留一交叉验证:K=N; 分层交叉验证:每个部分中保持目标变量的

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档