第九章 分类与预测.pptVIP

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 分类和预测 分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。 没有统一的观点,一般认为: 用预测法预测数据归属于哪个类称为分类; 用预测法预测连续值为预测。 一、分类 数据分类的步骤: 数据准备 建立模型 模型评估 使用模型分类 数据准备 数据清理:消除或减少燥声、处理空缺值 相关性分析:数据中与分类和预测任务不相关的属性分析 数据变换:如连续变成离散(年龄分段、收入分段等),区间变化 建立模型 建立模型,描述预定的数据类,通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由一个称为类标号属性的属性确定。 比如将人员数据按信用分成{优、良、中、一般、差}五个类,类标号属性为数据库的信用属性。 对于分类,数据元组也称为样本、实例或对象。为建立模型而被分析的数据元组组成训练数据集。训练集中的单个元组称作训练样本,并随机的由样本群选取。 由于提供了每个训练样本的类标号(即指定了按哪个类属性分类),该步也称为有指导的学习。 模型评估 首先评估模型的预测正确率,建立一个测试集,测试集中数据从样本集随机取出并独立于训练样本。 模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比。 模型评价指标 a是正确预测到的负例的数量, True Negative(TN,0-0) b是把负例预测成正例的数量, False Positive(FP, 0-1) c是把正例预测成负例的数量, False Negative(FN, 1-0) d是正确预测到的正例的数量, True Positive(TP, 1-1) a+b是实际上负例的数量,Actual Negative c+d是实际上正例的个数,Actual Positive a+c是预测的负例个数,Predicted Negative b+d是预测的正例个数,Predicted Positive 模型评价指标 准确(分类)率=正确预测的正反例数/总数 Accuracy=true positive and true negative/total cases ACC = ( TP + TN ) / ( P + N ) 误分类率=错误预测的正反例数/总数 Error rate=false positive and false negative/total cases Error rate=(FP+FN)/(P+N) 模型评价指标 正例的覆盖率=正确预测到的正例数/实际正例总数,Recall(True Positive Rate,or Sensitivity)=true positive/total actual positive TPR = TP / P = TP / ( TP + FN ) false positive rate (FPR)??? ?等同于:fall-out FPR = FP / N = FP / ( FP + TN ) 模型评价指标 负例的覆盖率=正确预测到的负例个数/实际负例总数 Specificity(True Negative Rate)=true negative/total actual negative SPC = TN / N = TN / ( FP + TN ) = 1 - FPR ROC曲线,全称是receiver operating characteristic curve,中文叫“接受者操作特性曲线”,纵坐标: true positives rate(sensitivity), 横坐标 false positives rate(1-specificity) 模型评价指标 positive predictive value (PPV) 等同于:precision ???????????PPV = TP / ( TP + FP ) negative predictive value (NPV) ???????????NPV = TN / ( TN + FN ) false discovery rate (FDR) ???????????FDR = FP / ( FP + TP ) Matthews correlation coefficient ( MCC ) ???????????MCC = ( TP*TN - FP*FN ) / sqrt(P*N*P1*N1) F1 score??????????? F1 = 2*TP / (P + P1) 图例 图例 二、决策(判定)树归纳 1、决策树 一个树形的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布 一个电器销售商

文档评论(0)

xuefei111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档