- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
logistic回归应用的注意事项 变量取值形式 事件变量的取值:一般发生为1,未发生为0,如果发生为0,未发生为1,则模型中回归系数绝对值不变,但符号相反。 自变量可以是二分类变量、有序变量、多分类变量、连续变量。 本部分PPT源 自baidu文库 logistic回归应用的注意事项 连续变量一般需转换为等级变量,否则实际意义不大。 如年龄每增加1岁的优势比。 等级变量取值 认为变化每个等级的优势比相近,则取秩 认为变化每个等级的优势比不同,则应转换为哑变量分析。 本部分PPT源 自baidu文库 logistic回归应用的注意事项 多分类变量只能转换为哑变量处理。 哑变量的设置和结果解释 哑变量的个数为n-1(n为取值个数); 哑变量的优势比表示自变量的某个取值与对照取值的优势比; 等级变量转换为哑变量后,还可以分析多个等级之间的优势比,公式为exp(bi-bj)。 本部分PPT源 自baidu文库 logistic回归应用的注意事项 样本含量 样本例数与影响因素的个数相关; 一般要求样本含量为影响因素个数的10以上; 配对资料样本的匹配组数应为影响因素个数的20倍以上。 本部分PPT源 自baidu文库 logistic回归应用的注意事项 模型评价 对模型中的每个自变量进行检验(验证); 对所建立的回归方程做拟合优度检验(探索)。 拟合优度检验的统计量 偏差(deviance,D)和Pearson ?2 P>α,认为拟合效果好;P≤α,则效果不好。 本部分PPT源 自baidu文库 8.3 Boosting方法(补充内容) 通过融合多个分类器提高分类性能; 迭代形式对分类器的输入和输出进行加权处理; 通过渐进式的分类器设计过程逐步提高分类算法的性能 Boosting流程(loop1) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 X1?1:-1 弱假设 本部分PPT源 自baidu文库 Boosting流程(loop2) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 Y3?1:-1 弱假设 本部分PPT源 自baidu文库 Boosting流程(loop3) 强学习机 弱学习机 原始训练集 加权后的训练集 加权后的假设 Z7?1:-1 弱假设 本部分PPT源 自baidu文库 流程描述 Step1: 原始训练集输入,带有原始分布 Step2: 给出训练集中各样本的权重 Step3: 将改变分布后的训练集输入已知的弱学习机,弱学习机对每个样本给出假设 Step4: 对此次的弱学习机给出权重 Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 Step6: 将弱学习机按其相应的权重加权组合形成强学习机 本部分PPT源 自baidu文库 核心思想 样本的权重 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。 本部分PPT源 自baidu文库 算法--Adaboost 本部分PPT源 自baidu文库 应用—人脸识别 本部分PPT源 自baidu文库 应用—文本分类 本部分PPT源 自baidu文库 参考资料 Internet站点 推荐论文 A Brief Introduction to Boosting Experiments with a New Boosting Algorithm Additive Logistic Regression: a Statistical View of Boosting The Boosting Approach to Machine Learning: an overview Game Theory, On-line Prediction and Boosting Boosting as Entropy Projection Logistic Regression, AdaBoost and Bregman Distances 以上论文均可在下载 本部分PPT源 自baidu文库 致谢与说明 本章课件绝大部分取自百度文库,在此致谢! 因来源作者不可考,无法一一具体标出。 课件仅供研究生学习使用,不用商业用途。 * 企业ERP级解决方案 信息量要求比较低: 我们最多只需要问两个问题,就可以给出结论 信息量要求太高:我们可能需要问四个现问题才能给出答案 前言 Logistic回归
文档评论(0)