- 36
- 0
- 约1.76万字
- 约 65页
- 2021-03-19 发布于广东
- 举报
分类: 前提: 正态性假设:总体误差项需服从正态分布,反之则最小二乘估计不再是最佳无偏估计,不能进行区间估计和假设检验 零均值性假设:在自变量取一定值的条件下,其总体各误差项的条件平均值为零,反之无法得到无偏估计 等方差性假设:在自变量取一定值的条件下,其总体各误差项的条件方差为一常数,反之无法得到无偏估计 独立性假设 :误差项之间相互独立(不相关),误差项与自变量之间应相互独立,否则最小二乘估计不再是有效估计 检验: 回归模型 回归-线性回归 一元线性回归 只有一个变量X与因变量Y有关,X与Y都是连续型变量,因变量Y或其残差必须服从正态分布 多元线性回归 分析多个变量与因变量Y的关系, X与Y都是连续型变量,因变量Y或其残差必须服从正态分布 LOGISTIC线性回归 分析多个变量与因变量Y的关系, Y通常是离散型或定性变量,该模型对因变量Y的分布无要求 模型显著性:F检验,读取p值并同置信度比较,判断回归模型显著性 系数显著性:t检验,读取p值并同置信度比较,判断该自变量是否显著影响因变量 拟合优度 残差检验:绘制残差图(标准化残差直方图及散点图),检验残差的正态性及独立性,若所描绘的点都在以0为横轴的直线上下随机散布,则回归直线对各个观测值的拟合情况良好 决定系数: 度量自变量对因变量变化的解释程度,愈接近1则线性关系愈强 样本容量:n ≥30或n ≥3(p+1);其中n为样本容量,p为自变量数目 埃森哲大数据分析方法论及工具 分类模型评估 分类模型评估 效果指标 测试集选取 指标呈现 保持法 随机二次抽样 交叉验证 自助法 …… 基于统计 基于比率 误差、离差、Kappa统计量、 准确率置信区间、错误率观测差…… 混淆矩阵 ROC曲线 KS曲线 Lift图 响应率曲线 目的:模型之间的比选以及单模型预测效果 捕获率曲线/增益图 准确率 敏感性 特异性 精度 KS值 Lift值 响应率 捕获率 埃森哲大数据分析方法论及工具 分类模型评估 方法 描述 图示 保持法 将原始数据集随机地划分到两个独立的集合:训练集和检验集。通常,三分之二的数据分配到训练集,其余三分之一分配到检验集。模型的效果指标如准确率、误差等由训练集导出。 随机二次抽样 多次重复使用保持法,得到一组准确率等效果指标。 交叉验证 最常用的是k-折交叉法,将原始数据分成k份,每次用其中一份为测试集,其余为训练集运行,总共运行k次,记录误差。 自助法 有放回抽样。训练集的样本为N,放回原数据集,重新有放回地均匀抽取N个样本后,剩余的数据集作为测试集。 原始数据集 训练集 测试集 模型评估 建立模型 2/3 1/3 原始数据集 模型评估 建立模型 1/k 1/k 1/k 1/k … 有放回抽取N样本 建立模型 测试集 模型评估 训练集(N) 总数据集 测试集选取方法 埃森哲大数据分析方法论及工具 效果指标—基于比率 1 0 合计 1 a b a+b 0 c d c+d 合计 a+c b+d a+b+c+d 预测类 实际类 以二分类为例,说明几个重要效果指标概念。下图为混淆矩阵。通过银行办理信用卡的例子做指标的业务解释。 最常用的评估指标,用以评价模型分类是否正确。但是,对于不平衡问题(即0类的占大多数),准确率去评价就不够。例如银行办理信用卡,模型只用一条规则“所有人不违约”,结果准确率达到1000/1200=83.3%。但这样的模型毫无意义。准确率适合于平衡问题。 正确识别正元组的百分比。如例中,敏感性为80/200=40%,因此该模型正确标识真元组(稀有类)的能力还是比较差的,但是还是高于违约的总占比200/1200=16.7% 违约 不违约 合计 违约 80 120 200 不违约 20 980 1000 合计 100 1100 1200 预测类 实际类 正确识别负元组的百分比。例子中为98%。 预测为正元类中实际为正元类所占的百分比。衡量预测类1的精确性。例子中为80%。 该案例中模型对于违约的人群,可以识别40%;如果一个人通过模型判断为违约类,则80%可能该人为违约的。敏感性和精度是两个重要指标,可以综合这两个指标,如F等。 示例 敏感性=a/(a+b) 准确率=(a+d)/(a+b+c+d) 特异性=d/(c+d) 精度=a/(a+c) 分类模型评估 埃森哲大数据分析方法论及工具 以真正率及敏感性为纵轴,假正率=1-特异性为横轴做图。给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。 ROC曲线 增益图 KS曲线 模型预测为概率值,即为1类的概率为多少,为0类的概率为多少
原创力文档

文档评论(0)