埃森哲大数据分析方法论及工具.pptVIP

下载本文档

36
0
约1.76万字
约 65页
2021-03-19 发布于广东
举报

埃森哲大数据分析方法论及工具.ppt

分类：前提：正态性假设：总体误差项需服从正态分布，反之则最小二乘估计不再是最佳无偏估计，不能进行区间估计和假设检验零均值性假设：在自变量取一定值的条件下，其总体各误差项的条件平均值为零，反之无法得到无偏估计等方差性假设：在自变量取一定值的条件下，其总体各误差项的条件方差为一常数，反之无法得到无偏估计独立性假设：误差项之间相互独立（不相关）,误差项与自变量之间应相互独立，否则最小二乘估计不再是有效估计检验：回归模型回归-线性回归一元线性回归只有一个变量X与因变量Y有关，X与Y都是连续型变量，因变量Y或其残差必须服从正态分布多元线性回归分析多个变量与因变量Y的关系， X与Y都是连续型变量，因变量Y或其残差必须服从正态分布 LOGISTIC线性回归分析多个变量与因变量Y的关系， Y通常是离散型或定性变量，该模型对因变量Y的分布无要求模型显著性：F检验，读取p值并同置信度比较，判断回归模型显著性系数显著性：t检验，读取p值并同置信度比较，判断该自变量是否显著影响因变量拟合优度残差检验：绘制残差图（标准化残差直方图及散点图），检验残差的正态性及独立性，若所描绘的点都在以0为横轴的直线上下随机散布，则回归直线对各个观测值的拟合情况良好决定系数：度量自变量对因变量变化的解释程度，愈接近1则线性关系愈强样本容量：n ≥30或n ≥3(p+1)；其中n为样本容量，p为自变量数目埃森哲大数据分析方法论及工具分类模型评估分类模型评估效果指标测试集选取指标呈现保持法随机二次抽样交叉验证自助法 …… 基于统计基于比率误差、离差、Kappa统计量、准确率置信区间、错误率观测差…… 混淆矩阵 ROC曲线 KS曲线 Lift图响应率曲线目的：模型之间的比选以及单模型预测效果捕获率曲线/增益图准确率敏感性特异性精度 KS值 Lift值响应率捕获率埃森哲大数据分析方法论及工具分类模型评估方法描述图示保持法将原始数据集随机地划分到两个独立的集合:训练集和检验集。通常，三分之二的数据分配到训练集，其余三分之一分配到检验集。模型的效果指标如准确率、误差等由训练集导出。随机二次抽样多次重复使用保持法，得到一组准确率等效果指标。交叉验证最常用的是k-折交叉法，将原始数据分成k份，每次用其中一份为测试集，其余为训练集运行，总共运行k次，记录误差。自助法有放回抽样。训练集的样本为N，放回原数据集，重新有放回地均匀抽取N个样本后，剩余的数据集作为测试集。原始数据集训练集测试集模型评估建立模型 2/3 1/3 原始数据集模型评估建立模型 1/k 1/k 1/k 1/k … 有放回抽取N样本建立模型测试集模型评估训练集（N）总数据集测试集选取方法埃森哲大数据分析方法论及工具效果指标—基于比率 1 0 合计 1 a b a+b 0 c d c+d 合计 a+c b+d a+b+c+d 预测类实际类以二分类为例，说明几个重要效果指标概念。下图为混淆矩阵。通过银行办理信用卡的例子做指标的业务解释。最常用的评估指标，用以评价模型分类是否正确。但是，对于不平衡问题（即0类的占大多数），准确率去评价就不够。例如银行办理信用卡，模型只用一条规则“所有人不违约”，结果准确率达到1000/1200=83.3%。但这样的模型毫无意义。准确率适合于平衡问题。正确识别正元组的百分比。如例中，敏感性为80/200=40%，因此该模型正确标识真元组（稀有类）的能力还是比较差的，但是还是高于违约的总占比200/1200=16.7% 违约不违约合计违约 80 120 200 不违约 20 980 1000 合计 100 1100 1200 预测类实际类正确识别负元组的百分比。例子中为98%。预测为正元类中实际为正元类所占的百分比。衡量预测类1的精确性。例子中为80%。该案例中模型对于违约的人群，可以识别40%；如果一个人通过模型判断为违约类，则80%可能该人为违约的。敏感性和精度是两个重要指标，可以综合这两个指标，如F等。示例敏感性=a/(a+b) 准确率=(a+d)/(a+b+c+d) 特异性=d/(c+d) 精度=a/(a+c) 分类模型评估埃森哲大数据分析方法论及工具以真正率及敏感性为纵轴，假正率=1-特异性为横轴做图。给定一个二类问题，我们可以对检验集的不同部分，显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。 ROC曲线增益图 KS曲线模型预测为概率值，即为1类的概率为多少，为0类的概率为多少

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

埃森哲大数据分析方法论及工具.pptVIP