多元线性回归概述.pptVIP

下载本文档

0
0
约1.94万字
约 182页
2025-12-08 发布于浙江
举报
版权申诉

多元线性回归概述.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

由得到的模型可知，患病概率为：当体质指数BMI变化1单位时，对数优势比将增加0.2570，优势比将增加即：2010-10-1逻辑回归应用举例关联分析：关联分析是寻找数据库中值的相关性。关联分析发现管理规则，这些规则展示属性值频繁的在给定数据集中一起出现的条件。关联分析广泛的应用于交叉营销，购物篮分析。在关联分析的基础上，应用规则归纳方法，通过统计方法归纳、提取有价值的if-then规则。例如，在无力偿还贷款的人当中，60%的人的月收入在3000元以下。4.4关联分析知识发现KDD中的关联分析关联规则是形式如下的一种规则，“在购买面包和黄油的顾客中，有90%的人同时也买了牛奶”:(面包十黄油)~(牛奶)。用于关联规则发现的主要对象是事务型数据库，其中针对的应用主要是售货数据，也称货篮数据。一个事务一般由如下几个部分组成事务处理时间，一组顾客购买的物品，还有顾客标识号等。朴素贝叶斯算法优缺点NaiveBayes的优点：面对孤立的噪声点，朴素贝叶斯分类器是健壮的；面对无关属性，该分类器是健壮的。NaiveBayes的缺点：相关属性可能会降低朴素贝叶斯分类器的性能，因为对这些属性，条件独立的假设已不成立。分类方法评价类不是同等重要的二元分类问题的混淆矩阵分类评价指标准确率(Accuracy)召回率（Recall）精度（Precision）F-度量(F-measure)G-平均（G-mean）准确率所有正确分类的样本在测试样本集中所占的百分比。按表中的各项定义即为:召回率在实际为目标类的所有样本中，正确分类的样本所占的百分比。按表中的各项定义即为:精度在预测为目标类的所有样本中，正确分类的样本所占的百分比。按表中的各项定义即为:召回率和精度是评估不平衡类分类性能的重要指标。一般来说，这两个指标是互补的，纯粹提高召回率就会导致精度的降低，反之亦然。因此，尽管一个好的不平衡类分类模型应该同时具有较高的召回率和精度，但是实际的分类算法往往需要在两者之间做出一些折中，而不至于使其中某个指标过低。因此，为了综合召回率和精度以全面的评估特定目标类的分类性能，引入了F-度量。F-度量其中λ是对目标类的召回率RC和精度PC的关注权重因子，通常我们取等同的权重，即λ=0.5，从而目标类的F一度量值为:上述指标仅仅评估了一个目标类(正类或者负类)的分类性能，在特定的情况下，有的分类模型极有可能在提高某一目标类分类性能的同时，降低了其它目标类的分类性能，因此，上述指标并不能全面的评估分类模型在所有目标类的分类性能。为了能全面的评估正类和负类的分类效果，近几年新引入G-mean(geometricmean)定义评估不平衡类分类的建模效果。4.3回归模型分析回归分析的概念回归分类树及其应用多元线性回归分析及其应用逻辑回归分析及其应用2010-10-1回归模型基本概念在数量分析中，经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的，就需要利用相关分析和回归分析。回归分析的主要类型：一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。本章将重点介绍在数据挖掘领域有重要应用的回归分类树，多元线性回归以及逻辑回归。2010-10-1回归分类树概述原始的回归分类树CART算法是针对属性是连续且有序的,并且每次划分属性时只能产生两个子节点，是一种从无次序、无规则的样本数据集中推理出决策树表示形式的分类规则方法.它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性值判断从该节点向下的分枝,在决策树的叶结点得到结论,因此从根节点到叶结点的一条路径就对一条规则,整棵决策树就对应着一组表达式规则.2010-10-1回归分类树算法描述其中T代表当前样本集，当前候选属性集用T_attributelist表示。（1）创建根节点N（2）为N分配类别（3）ifT都属于同一类别orT中只剩下一个样本则返回N为叶节点，为其分配属性（4）foreachT_attributelist中属性执行该属性上的一个划分，计算此划分的Gini系数（5）N的测试属性test_attribute=T_attributelist中最小GINI系数的属性（6）划分T得到T1T2子集（7）对于T1重复（1）-（6）（8）对于T2重复（1）-（6）CART算法考虑到每个节