数据挖掘与应用(七1).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与应用(七1)要点

修正数据集也叫做验证数据集。 * η艾塔 μ缪 * 饱和模型(saturated model)是指各观测变量之间均容许相关的最复杂模型,自由度为0.饱和模型其实是人为设定的约束条件最少的模型,纯粹按照数据的相互关系来构建最优的模型,所以,它是数学上最优的模型,一种理想的状态。   对于饱和模型来说暗含的协方差应同样本协方差相一致。但对于过度限定的模型来说则有可能不同。在这种情况下,如果模型是正确的,那么暗含的协方差比样本协方差更接近总体的协方差。 * * * * 情形一:因变量为二值变量 可采用逻辑回归: 不失一般性,设因变量Y的取值为0或1。 μ代表Y取值为1的概率。Y满足参数为μ的伯努力分布,没有刻度参数。 使用逻辑(logit)连接函数,即: 它表示Y取值为1的概率与Y取值为0的概率的比的对数。 系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时,Y取值为1的概率与Y取值为0的概率的比是原来的exp(βr)倍。 * * 情形一:因变量为二值变量 对数似然函数为 。在广义线性模型下,可得ui的表达式: 饱和模型对ui没有任何限制,这时对ui的最大似然估计为: 可得 。 比率偏差和偏差都等于: * * * 情形二:因变量为名义变量 可采用多项逻辑回归: 令μ(l)表示Y取值为l的概率l=(1, … ,K),它们满足μ(l) +…+ μ(K) =1。对l=1, … ,K ,令: 因变量Y的取值为1, … ,K,各取值之间是无序的。 那么(Y(l) , … ,Y(K))满足参数为(1, μ(l), … ,μ(K))的多项分 布,没有刻度参数。 * * * * 情形二:因变量为名义变量 将第K个类别作为参照类别,使用如下连接函数: ηl表示Y取值为l的概率与Y取值为K的概率的比的对数。 令ηl =αl+xTβl(l=1, … ,K-1),系数βlr可以如下解释:xr的值增加一个单位而其他自变量的值不变时,Y取值为l的概率与Y取值为K的概率的比是原来的exp(βlr)倍。 * 情形二:因变量为名义变量 对数似然函数为 ,其中μi,l代表第i个观测的因变量取值为l的概率。在广义线性模型下,μi,l的表达式通过连接函数可得: * 情形二:因变量为名义变量 饱和模型对μi,l没有任何限制,这时对μi,l的最大似然估计为: 可得 。 比率偏差和偏差都等于: * 情形三:因变量为定序变量 可采用序次逻辑回归: 令μ(l)表示Y取值小于或等于l的概率(l=0,1, … ,K),它们满足0=μ(0) ≤μ(1)≤μ(2)≤…≤μ(K-1)≤μ(K)=1。对l=1, … ,K,令 那么(Y(1) , … ,Y(K))满足参数为 (1, μ(1),μ(2)-μ(1), … , 1-μ(K-1))的多项分布,没有刻度参数。 * 情形三:因变量为定序变量 使用如下连接函数: ηl表示Y取值小于或等于l的概率与Y取值大于l的概率的比的对数,它们须满足η1≤η2≤…≤ ηK-1。 令ηl= αl+xTβ(l=1, … ,K一1),其中β不随l变化,而α1≤ α2≤… ≤ αK-1 ,这样可以保证满足η1≤η2≤…≤ ηK-1。 系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时,对l=1, … ,K-1, Y取值小于或等于l的概率与Y取值大于l的概率的比是原来的exp(βr)倍。 * 情形三:因变量为定序变量 对数似然函数为 ,其中μi,l代表第i个观测的因变量取值小于或等于l的概率。在广义线性模型下,对l=1, … ,K-1,可得μi,l的表达式: * 情形三:因变量为定序变量 饱和模型对μi,l没有任何限制,μi,l的最大似然估计为: 可得 。 比率偏差和偏差都等于: * 情形四:因变量为计数变量 可采用泊松回归: 因变量Y的取值为1,2, … ,代表某事件发生的次数。 μ代表Y的均值。设Y满足泊松分布,没有刻度参数。 使用对数连接函数η= log(μ)。 系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时,事件发生的平均次数是原来的exp(βr)倍。 * 情形四:因变量为计数变量 对数似然函数为 。在广义线性模型下,可得ui的表达式: 饱和模型对ui没有任何限制,这时对ui的最大似然估计为: 可得 。 比率偏差和偏差都等于: * 情形五:因变量为非负连续变量 因变量Y的取值连续非负(例如,收入、销售额)。根据分布的特性可以使用不同的广义线性模型。 * 情形五:因变量为非负连续变量 情形五的第一种情况:如果Y

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档