逻辑斯蒂回归和最大熵.pptVIP

下载本文档

15
0
约2.43千字
约 25页
2018-06-17 发布于安徽
举报
版权申诉

逻辑斯蒂回归和最大熵.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第6章逻辑斯蒂回归与最大熵模型简介 6.0 逻辑斯蒂回归模型 6.1 最大熵模型 6.2 第6章.简介逻辑斯蒂回归是统计学中经典的分类方法. 最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵模型. 逻辑斯蒂与最大熵都是线性模型。 6.1 逻辑斯蒂回归模型 6.1.1 逻辑斯蒂分布定义6.1 设X是连续随机变量,逻辑斯蒂分布函数和密度函数: 为位置参数 0 为形状参数 6.1 逻辑斯蒂回归模型定义 6.2 二项逻辑斯蒂回归模型是如下概率分布: x?Rn是输入，y?{0,1}输出，w，b参数，w权值向量，b偏置，w.x内积. 6.1.2 二项逻辑斯蒂回归模型有时为了研究方便，将权值和输入向量扩充w=(w(1),w(2),…w(n),b)T,x=(x(1),…x(n),1)T,此时逻辑斯蒂模型：考察逻辑斯蒂回归模型特点.事件的几率:发生概率与不发生概率的比值. 对数几率: 对逻辑斯蒂回归而言这就是说,RLM中，输出Y=1对数几率是输入x的线性函数. 换角度，考虑对输入x分类的线性函数w.x,通过LRM模型将线性函数转化为概率：线性函数值接近正无穷，概率值接近1；反之，负无穷和0，--这就是逻辑斯蒂回归模型。训练集T = {(x1,y1)…(xN,yN)},x?Rn,y?{0,1}，用极大似然估计法估计模型参数，从而得到LRM. 设: 似然函数 6.1.3 模型参数估计对数似然函数 **对L求极大值得到w的估计值. 这样，问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法假设离散随机变量Y的取值集合{1,2…K}那么LRM为： 6.1.4 多项逻辑斯蒂回归 6.2.1 最大熵原理表述为在满足约束条件的模型集合中选取最大熵模型。若离散随机变量X的概率分布是P(X)，其熵为：熵满足下列不等式 6.2 最大熵模型 |X|为X取值个数，仅当X均匀分布时，右等号成立，熵最大。最大熵理论：熵增原理在无外力作用下，事物总是朝着最混乱的方向发展事物是约束和自由的统一体事物总是在约束下争取最大的自由权，这其实也是自然界的根本原则在已知条件下，熵最大的事物，最可能接近它的真实状态以最大熵理论为基础的统计建模为什么可以基于最大熵建模呢？ Jaynes证明：对随机事件的所有相容的预测中，熵最大的预测出现的概率占绝对优势 Tribus证明，正态分布、伽玛分布、指数分布等，都是最大熵原理的特殊情况。基于最大熵的统计建模：建模理论最大熵原则下点的分布：对一随机过程，如果没有任何观测量，即没有任何约束，则解为均匀分布。增加约束条件继续增加约束条件问题描述：设最终输出值构成的语言学类别有限集为Y，对于每个y∈Y，其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X，则模型的目标是：给定上下文x∈X，计算输出为y∈Y的条件概率p(y|x)。基于最大熵的统计建模：数学描述例 6.1 随机变量X取值{A,B,C,D,E},要估计各值的概率P(A)，P(B)… 解：约束条件：P(A)+P(B)+P(C)+P(D)+P(E)=1 有时，能从先验知识得到一些约束条件，如： P(A)+P(B)=3/10 - P(A)=P(B)=3/20 P(A)+P(B)+P(C)+P(D)+P(E)=1 - P(C)=P(D)=P(E)=7/30 6.2 最大熵模型这时认为A，B等可能，C,D,E等可能。以此类推，如果有3个约束条件等，以上模型学习方法正是遵循了最大熵原理满足条件的分布有无穷多，一个办法认为等可能的 P(A)=P(B)=P(C)=P(D)=P(E)=1/5 图提供了用最大熵原理进行概率模型选择的集合解释。假设模型是一个条件概率分布P(Y|X)，给定输入X以P(Y|X)输出Y。给定训练集T={(x1,y1)…(xN,yN)},选择分类模型. 先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布 v(X=x,Y=y)表示T中（x,y）出现频数，v(X=x)表示出现频数，N样本容量. 用特征函数f(x,y)定义x,y之间某一事实 6.2.2 最大熵模型的定义特征函数f(x,y)关于经验分布P~(X,Y)的期望值：如果模型能获取T中信息那么假设这两个期望值相等，即 Ep(f)=Ep~(f) 或： 6.2.2 最大熵模型的定义特征函数f(x,y)关于模型P(X|Y)与经验分布P~(X)的期望值：此为模型约束条件，如果有n个特征函数fi(x,y)就有n个约束条件。定义6.3 最大熵模型假设满足约束条件模型集合为则模型集合C中条件熵H(P)最大的模型称为最大熵模型. 6.2.2 最大熵模型的定义