最大熵模型(matlab应用)解析.pptVIP

  • 220
  • 0
  • 约1.43万字
  • 约 93页
  • 2016-11-02 发布于湖北
  • 举报
最大熵模型(matlab应用)解析.ppt

非线性规划中的对偶问题 拉格朗日函数: 于是: 因此,为了尽量大,p的选取必须保证 考虑: 只要令lambda(i)=负无穷大就行了 对偶问题与拉格朗日函数: 同时: 等价于: 而 可以证明,这里等号成立。不过证明比较复杂,是单独一篇论文了(见参考资料4) 对偶问题与拉格朗日函数: 至此,我们可以通过找min lambda L(p*,lambda)来找出合适的lambda了,这可以用各种近似方法(因为不是求导数的相等了)比如迭代算法、梯度算法之类的。论文里的算法在本章最后给出解释 梯度递减法 把p*代入L,得到: 令: 其实不难,都是很直接的推导,但太繁了。 这个只是为了下面的推导简单一些,少写几个字而已。 梯度递减法 求导,计算-L的梯度: 梯度就是偏导数(看居于马数学书第三册第一章) 梯度递减法 递推公式: 收敛问题…… 里面的c是学习速度。一般来说,c越小越容易收敛,但学习速度慢。c大的时候学习速度快,但很可能不收敛(步子太大,总是走过了最优点) 这就是Adwait那篇论文里面的GIS的精髓了。 不过在那篇论文里面,他用了alpha[i]=exp(lambda[i])。而c等于1/C。 收敛问题太复杂了。Adwait那篇论文用c=1/C,收敛性好像可以证明的(GIS算法)--但一般实现的时候都不考虑收敛性,只要到了一定的接近程度就行了。比如adwait自己在论文里面

文档评论(0)

1亿VIP精品文档

相关文档