分类器的评估分析.ppt

下载文档 降价啦

97
0
约5.25千字
约 22页
2017-01-09 发布于湖北
举报
版权申诉
保障服务

分类器的评估分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分类器的评估分析

判定为p类的阈值随考察的观测对象逐渐下降 * 如果分类模型有效，排在前面的数据中实际为GOOD的记录比排在后面的数据中要多一些。 * 决策的阈值：T=1/(1+1/B) （T=C（-，+）/（C（-，+）+C（+，-））例如：预测正确一个正值收入1（即将一个正值预测为负值的代价为1），将一个负值预测为正值代价为5 则决策阈值=1/(1+1/5)=5/6 如果C（-，+）〉C（+，-），则提高阈值，否则降低阈值 * 装袋：如果基分类器是不稳定的，装袋可以减少由于训练数据的随机波动导致的误差，可以提高预测性能，而对于稳定的基分类器，则不一定，甚至可能降低分类器的性能（因为抽样后训练集实际包含的不同观测数降低，为原来的0.632） Adaboost是最流行的提升算法，初始每个观测的权重都赋值为1/n，抽样形成训练集时，抽中的机会和权重有关，本轮分类错误的观测权重增加，分类正确的观测权重减小，模型的误分类率为每个观测的加权误分类和（如果误分类率过大，则丢弃该模型）分类器Mi的表决权重为log(1-err(Mi)/err(Mi),最终决策结果为具有最大权重和的类随机森林：通常每个树选择log2 d +1个属性，也可以利用属性的组合。将装袋与属性选择结合。 * 欠抽样可能造成某些有代表性的负样本未抽出，因此应进行多次抽样，并采用组合分类技术进行纠正。混合抽样技术：对正类进行过抽样，对负类进行欠抽样 * 分类器的评估张英混淆矩阵与分类准确率多分类问题的混淆矩阵预测结果类 c1 c2 …… ck 总实际类 c1 c2 …… ck 总 n 准确率误分类率分类模型的评价指标 1. 准确率与误分类率准确率 =(tp+tn) )/(tp+fn+fp+tn) 误分类率=(fn+fp)/(tp+fn+fp+tn) 真正率（灵敏度） =tp/(tp+fn) 真负率（特指度） =tn/(fp+tn) 假正率 =fp/(fp+tn) 假负率 =fn/(tp+fn) 二分类问题的混淆矩阵预测结果类 + - 总实际类 + tp fn tp+fn - fp tn fp+tn 总 tp+fp fn+tn tp+fn+fp+tn 不平衡分布类二类分类问题的混淆矩阵预测结果类 +10 -90 实际类 +5 ++ (tp)3 +- (fn)2 -95 -+ (fp)7 — (tn)88 误分类率：9% 真正率：60% 评估指标 2. 精度 P=tp / (tp+fp) 3. 召回率（真正率、灵敏度） R=tp/(tp+fn) 4.FSCORE 精度和召回率的调和均值：召回率和精度的权重相同： F = 2RP/(R+P) 将召回率的权重设为精度的β倍：二分类问题的混淆矩阵预测结果类 + - 总实际类 + tp fn tp+fn - fp tn fp+tn 总 tp+fp fn+tn tp+fn+fp+tn 评估指标二分类问题的误分类代价预测结果类 + - 总实际类 + C(+,+) C(+,-) C(+,+)*TP+C(+,-)*FN - C(-,+) C(-,-) C(-,+)*FP+C(-,-)*TN 误分类代价（成本或收益）误分类代价对称 C(+,+)=C(-,-)=0 C(+,-)=C(-,+)=1 误分类代价不对称关注预测为正类成本角度收益角度二分类问题的混淆矩阵预测结果类 + - 总实际类 + tp fn tp+fn - fp tn fp+tn 预测性能评估指标的选择平衡分布类，对称误分类代价准确率、误分类率，精度不平衡分布类，对称误分类代价精度，召回率，FSCORE 不对称误分类代价成本或收益模型评估方法 Hold方法将数据分成训练集和验证（测试）集，一般按照2:1比例划分，以验证集指标进行评估；多次随机采样进行N次上述（1）的随机采样，然后计算N个测试精度的平均值自助法（bootstrap)（最常用的.632自助法）进行N次有放回的均匀采样，获得的数据集作为训练集，原数据集中未被抽中的其它观测形成验证集。可重复K次，计算准确率：模型评估方法交叉验证数据集小的时候，可将数据集分成K个不相交的等大数据子集，每次将K-1个数据集作为训练集，将1个数据集作为验证（测试）集，得到K个测试精度，然后计算K个测试指标的平均值。留一交叉验证：K=N；分层交叉验证：每个部分中保持目标变量的