逻辑斯蒂回归和最大熵.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 逻辑斯蒂回归与最大熵模型 简介 6.0 逻辑斯蒂回归模型 6.1 最大熵模型 6.2 第6章.简介 逻辑斯蒂回归是统计学中经典的分类方法. 最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型. 逻辑斯蒂与最大熵都是线性模型。 6.1 逻辑斯蒂回归模型 6.1.1 逻辑斯蒂分布 定义6.1 设X是连续随机变量,逻辑斯蒂分布函数和密度函数: 为位置参数 0 为形状参数 6.1 逻辑斯蒂回归模型 定义 6.2 二项逻辑斯蒂回归模型是如下概率分布: x?Rn是输入,y?{0,1}输出,w,b参数,w权值向量,b偏置,w.x内积. 6.1.2 二项逻辑斯蒂回归模型 有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),…w(n),b)T,x=(x(1),…x(n),1)T,此时逻辑斯蒂模型: 考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值. 对数几率: 对逻辑斯蒂回归而言 这就是说,RLM中,输出Y=1对数几率是输入x的线性函数. 换角度,考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率: 线性函数值接近正无穷,概率值接近1;反之,负无穷和0,--这就是逻辑斯蒂回归模型。 训练集T = {(x1,y1)…(xN,yN)},x?Rn,y?{0,1},用极大似然估计法估计模型参数,从而得到LRM. 设: 似然函数 6.1.3 模型参数估计 对数似然函数 **对L求极大值得到w的估计值. 这样,问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法 假设离散随机变量Y的取值集合{1,2…K}那么LRM为: 6.1.4 多项逻辑斯蒂回归 6.2.1 最大熵原理 表述为在满足约束条件的模型集合中选取最大熵模型。 若离散随机变量X的概率分布是P(X),其熵为: 熵满足下列不等式 6.2 最大熵模型 |X|为X取值个数,仅当X均匀分布时,右等号成立,熵最大。 最大熵理论:熵增原理 在无外力作用下,事物总是朝着最混乱的方向发展 事物是约束和自由的统一体 事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则 在已知条件下,熵最大的事物,最可能接近它的真实状态 以最大熵理论为基础的统计建模 为什么可以基于最大熵建模呢? Jaynes证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占绝对优势 Tribus证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况。 基于最大熵的统计建模:建模理论 最大熵原则下点的分布: 对一随机过程,如果没有任何观测量,即没有任何约束,则解为均匀分布。 增加约束条件 继续增加约束条件 问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个y∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x∈X,计算输出为y∈Y的条件概率p(y|x)。 基于最大熵的统计建模:数学描述 例 6.1 随机变量X取值{A,B,C,D,E},要估计各值的概率P(A),P(B)… 解:约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1 有时,能从先验知识得到一些约束条件,如: P(A)+P(B)=3/10 - P(A)=P(B)=3/20 P(A)+P(B)+P(C)+P(D)+P(E)=1 - P(C)=P(D)=P(E)=7/30 6.2 最大熵模型 这时认为A,B等可能,C,D,E等可能。 以此类推,如果有3个约束条件等,以上模型学习方法正是遵循了最大熵原理 满足条件的分布有无穷多,一个办法认为等可能的 P(A)=P(B)=P(C)=P(D)=P(E)=1/5 图提供了用最大熵原理进行概率模型选择的集合解释。 假设模型是一个条件概率分布P(Y|X),给定输入X以P(Y|X)输出Y。 给定训练集T={(x1,y1)…(xN,yN)},选择分类模型. 先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布 v(X=x,Y=y)表示T中(x,y)出现频数,v(X=x)表示出现频数,N样本容量. 用特征函数f(x,y)定义x,y之间某一事实 6.2.2 最大熵模型的定义 特征函数f(x,y)关于经验分布P~(X,Y)的期望值: 如果模型能获取T中信息那么假设这两个期望值相等,即 Ep(f)=Ep~(f) 或: 6.2.2 最大熵模型的定义 特征函数f(x,y)关于模型P(X|Y)与经验分布P~(X)的期望值: 此为模型约束条件,如果有n个特征函数fi(x,y)就有n个约束条件。 定义6.3 最大熵模型 假设满足约束条件模型集合为 则模型集合C中条件熵H(P)最大的模型称为最大熵模型. 6.2.2 最大熵模型的定义

文档评论(0)

189****6140 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档