- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
广义线性模型 广义线性模型(Generalized Linear Model)是对一般线性模型的拓展,一般线性模型是广义线性模型的一个特例 广义线性模型研究的重点是: 被解释变量应进行怎样的变换处理,即应选择被解释变量的哪种变换函数 Logistic回归分析 当被解释变量是只有0、1两个取值的二分类型变量时,回归分析通常采用Logistic回归模型,是广义线性模型的具体形式之一 Logistic回归模型也称对数单位模型: Logistic回归分析 连接函数: Logistic回归模型的参数估计 采用极大似然估计(Maximum Likelihood Estimation,MLE)法 对数似然函数为: 解读模型和模型检验 优势和优势比:优势Ω=P/(1-P),即某事件发生概率与不发生概率之比。利用优势比(Odds Ratio)可进行不同组之间风险的对比分析 表示当其他解释变量保持不变时,xi每增加一个单位所导致的优势是原来优势的exp(βi)倍,即优势比为 Logistic回归模型的检验 回归方程的显著性检验的基本思路是:如果方程中的诸多解释变量对Logit P的线性解释有显著意义,那么必然会使回归方程对样本的拟合得到显著提高。可采用对数似然比测度拟合程度是否有了提高 Logistic回归模型的检验 回归方程系数显著性检验目的是逐个检验方程中各解释变量是否与Logit P有显著的线性关系,对解释Logit P是否有重要贡献 检验统计量: R中建立Logistic回归方程的R函数是glm,是广义线性模型的英文头字母。基本书写格式为: glm(R公式,data=数据框名,family=分布名(link=连接函数名)) Logistic回归分析 示例:对于顾客软饮料购买意向数据,建立购买意向与除品牌之外的其他因素的Logistic回归模型,用以分析哪些因素是导致顾客做出不同购买决策的重要因素 Logistic回归分析:回归诊断 基于混淆矩阵的预测正确率 基于混淆矩阵的预测正确率 示例: 泊松回归分析 当被解释变量是单位时间内事件发生的次数,即被解释变量是计数变量时,采用泊松回归 泊松回归模型: 泊松回归模型也是一个对数-水平模型 模型的回归系数?i的含义是:当其他解释变量保持一定时,解释变量xi变动一个单位,将引起y的对数平均变动?i个单位 也可以为: 泊松回归分析 泊松回归模型系数的采用极大似然估计 泊松回归分析的R函数是glm,基本书写格式为: glm(R公式,data=数据框名,family=poisson(link=log)) 泊松回归分析示例 示例:对于大型超市的RFM数据,通过泊松回归分析,研究顾客一个月内的购物次数与购物时间间隔,购物总金额有怎样的数量关系 第10章 R的聚类分析 《基于R的统计分析与数据挖掘》 线性回归方程的参数估计 依据样本数据估计方程中的未知参数 在线性回归分析中,最常用的统计准则是普通最小二乘法: R函数基本书写格式为: lm(R公式,data=数据框名) coefficients(回归分析结果对象名) 线性回归方程的参数估计 示例: 线性回归方程的检验 回归方程的显著性检验是要检验被解释变量与解释变量全体之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当 原假设:各回归系数同时与零无显著差异 回归系数的显著性检验:逐个判断解释变量是否与被解释变量间存在显著的线性关系,它们是否应保留在回归方程中 原假设: 线性回归方程的检验 回归方程参数检验的结果均保存在回归分析的结果对象中,可通过以下函数访问 summary(回归分析结果对象名):显示线性回归分析结果的摘要 confint(回归分析结果对象名):显示回归系数默认95%的置信区间 示例: 利用线性回归方程做预测 预测R函数是predict,基本书写格式为: predict(回归分析结果对象名,新数据框名, type=response) 示例: 回归诊断:误差项是否满足高斯-马尔科夫假定 第一,建模是否在默认 满足高斯-马尔科夫假定下进行 第二,从普通最小二乘估计的出发点来看,线性回归经验方程会受到数据中可能存在的异常观测点的影响。利用各种方法诊断出具有不同特点的异常观测点,是非常必要的 第三,多重共线性问题 误差项和残差项 线性回归模型中的误差项是那些与被解释线性相关但又尚未观测到的方面。理论上它们应与线性回归模型中的解释变量无关。由于误差项无法观测,往往借助残差项进行研究 残差定义为:实际值减去拟合值 误差项和残差项 在R中,回归分析的拟合值存储在线性回归分析结果对象(列表)的名为fitted的成分中,通过:结果对象名$fitted的方式,可直接访问到拟合值。也可调用函数:fitted(回归
文档评论(0)