数据挖掘与应用(七1).ppt

下载文档 降价啦

6
0
约 57页
2017-06-01 发布于湖北
举报
版权申诉
保障服务

数据挖掘与应用(七1).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘与应用(七1)要点

修正数据集也叫做验证数据集。 * η艾塔 μ缪 * 饱和模型（saturated model）是指各观测变量之间均容许相关的最复杂模型，自由度为0.饱和模型其实是人为设定的约束条件最少的模型，纯粹按照数据的相互关系来构建最优的模型，所以，它是数学上最优的模型，一种理想的状态。　　对于饱和模型来说暗含的协方差应同样本协方差相一致。但对于过度限定的模型来说则有可能不同。在这种情况下，如果模型是正确的，那么暗含的协方差比样本协方差更接近总体的协方差。 * * * * 情形一:因变量为二值变量可采用逻辑回归: 不失一般性，设因变量Y的取值为0或1。 μ代表Ｙ取值为1的概率。Ｙ满足参数为μ的伯努力分布，没有刻度参数。使用逻辑(logit)连接函数，即：它表示Y取值为1的概率与Y取值为0的概率的比的对数。系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时，Y取值为1的概率与Y取值为0的概率的比是原来的exp(βr)倍。 * * 情形一:因变量为二值变量对数似然函数为。在广义线性模型下，可得ui的表达式: 饱和模型对ui没有任何限制，这时对ui的最大似然估计为：可得。比率偏差和偏差都等于： * * * 情形二:因变量为名义变量可采用多项逻辑回归: 令μ(l)表示Y取值为l的概率l=(1, … ,K)，它们满足μ(l) +…+ μ(K) =1。对l=1, … ,K ，令：因变量Y的取值为1, … ,K，各取值之间是无序的。那么(Y(l) , … ,Y(K))满足参数为(1, μ(l), … ,μ(K))的多项分布，没有刻度参数。 * * * * 情形二:因变量为名义变量将第K个类别作为参照类别，使用如下连接函数： ηl表示Y取值为l的概率与Y取值为K的概率的比的对数。令ηl =αl+xTβl(l=1, … ,K-1)，系数βlr可以如下解释：xr的值增加一个单位而其他自变量的值不变时，Y取值为l的概率与Y取值为K的概率的比是原来的exp(βlr)倍。 * 情形二:因变量为名义变量对数似然函数为 ,其中μi,l代表第i个观测的因变量取值为l的概率。在广义线性模型下，μi,l的表达式通过连接函数可得: * 情形二:因变量为名义变量饱和模型对μi,l没有任何限制，这时对μi,l的最大似然估计为：可得。比率偏差和偏差都等于： * 情形三:因变量为定序变量可采用序次逻辑回归: 令μ(l)表示Y取值小于或等于l的概率(l=0,1, … ,K)，它们满足0=μ(0) ≤μ(1)≤μ(2)≤…≤μ(K-1)≤μ(K)=1。对l=1, … ,K，令那么(Y(1) , … ,Y(K))满足参数为 (1, μ(1),μ(2)-μ(1), … , 1-μ(K-1))的多项分布，没有刻度参数。 * 情形三:因变量为定序变量使用如下连接函数: ηl表示Y取值小于或等于l的概率与Y取值大于l的概率的比的对数，它们须满足η1≤η2≤…≤ ηK-1。令ηl= αl+xTβ(l=1, … ,K一1)，其中β不随l变化，而α1≤ α2≤… ≤ αK-1 ，这样可以保证满足η1≤η2≤…≤ ηK-1。系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时，对l=1, … ,K-1, Y取值小于或等于l的概率与Y取值大于l的概率的比是原来的exp(βr)倍。 * 情形三:因变量为定序变量对数似然函数为 ,其中μi,l代表第i个观测的因变量取值小于或等于l的概率。在广义线性模型下，对l=1, … ,K-1，可得μi,l的表达式: * 情形三:因变量为定序变量饱和模型对μi,l没有任何限制，μi,l的最大似然估计为: 可得。比率偏差和偏差都等于: * 情形四:因变量为计数变量可采用泊松回归: 因变量Y的取值为1,2, … ,代表某事件发生的次数。 μ代表Y的均值。设Y满足泊松分布，没有刻度参数。使用对数连接函数η= log(μ)。系数βr可以如下解释:xr的值增加一个单位而其他自变量的值不变时，事件发生的平均次数是原来的exp(βr)倍。 * 情形四:因变量为计数变量对数似然函数为。在广义线性模型下，可得ui的表达式: 饱和模型对ui没有任何限制，这时对ui的最大似然估计为: 可得。比率偏差和偏差都等于: * 情形五:因变量为非负连续变量因变量Y的取值连续非负(例如，收入、销售额)。根据分布的特性可以使用不同的广义线性模型。 * 情形五:因变量为非负连续变量情形五的第一种情况:如果Y