逻辑斯蒂回归与最大熵.pptVIP

  • 31
  • 0
  • 约小于1千字
  • 约 25页
  • 2017-04-30 发布于湖北
  • 举报
第6章 逻辑斯蒂回归与最大熵模型;第6章.简介;6.1 逻辑斯蒂回归模型;6.1 逻辑斯蒂回归模型;定义 6.2 二项逻辑斯蒂回归模型是如下概率分布:;有时为了研究方便,将权值和输入向量扩充w=(w(1),w(2),…w(n),b)T,x=(x(1),…x(n),1)T,此时逻辑斯蒂模型: ;对逻辑斯蒂回归而言;训练集T = {(x1,y1)…(xN,yN)},x?Rn,y?{0,1},用极大似然估计法估计模型参数,从而得到LRM. 设:;这样,问题就成为以对数似然函数为目标函数的最优化问题.路径斯蒂回归通常采用梯度下降法,拟牛顿法;假设离散随机变量Y的取值集合{1,2…K}那么LRM为:;6.2.1 最大熵原理 表述为在满足约束条件的模型集合中选取最大熵模型。 若离散随机变量X的概率分布是P(X),其熵为:;最大熵理论:熵增原理;最大熵原则下点的分布:;问题描述:设最终输出值构成的语言学类别有限集为Y,对于每个y∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x∈X,计算输出为y∈Y的条件概率p(y|x)。;例 6.1 随机变量X取值{A,B,C,D,E},要估计各值的概率P(A),P(B)… 解:约束条件:P(A)+P(B)+P(C)+P(D)+P(E)=1;假设模型是一个条件概率分布P(Y|X),给定输入X以P(Y|X)输出Y。 给定训练集T={(x1,y1)…(xN,yN)},选择分类模型. 先找约束条件.对T可以确定联合分布P(X,Y)的经验分布和边缘分布P(X)的经验分布;特征函数f(x,y)关于经验分布P~(X,Y)的期望值:;定义6.3 最大熵模型 假设满足约束条件模型集合为;最大熵学习模型过程就是求解最大熵过程.可以形式化为约束最优化问题. 对于训练集T以及特征函数fi(x,y),最大熵模型学习等价约束最优化;求解约束最优化问题过程 这里将约束最优化原始问题转化为无约束最优化的对偶问题。;下面证明对偶函数极大化等价于最大熵模型的极大似然估计.;再看对偶函数 .由6.17及6.20得;既然对偶函数 等价于对数似然函数Lp~(Pw),于是证明最大熵模型学习中对偶函数极大化等价于最大熵模型的极大似然估计. 最大熵模型更一般形式

文档评论(0)

1亿VIP精品文档

相关文档