逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.pptVIP

逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.ppt

HIT-SCIR 李泽魁 2013-11-22 MaxEnt已经是比较成功的一个NLP模型,并获得广泛应用。 从信息论获得启发(1948-):自然语言处理也是信息处理的一种。 对偶问题: 从另一个角度看问题。 实际上,现在很多分布算法就是利用对偶原理把一个复杂的大问题变成可以分布计算的小问题…… 可能从不同领域获得的启发。(概率论与随机过程、最优化问题、图形学……) 6.2.4 极大似然估计 最大似然估计:找出与样本的分布最接近的概率分布模型。 栗子一个: 抛硬币十次 正正反正正正反反正正 设正面的概率为p 极大似然估计是什么 最大似然率:找出与样本的分布最接近的概率分布模型。 最优解是:p=0.7 似然率的一般定义: 极大似然估计vs对偶函数 似然率的一般定义: 似然率的对数形式: 极大似然估计vs对偶函数 在NLP里面,要估计的是: 似然率是: 是常数,可以忽略 极大似然估计vs对偶函数 在NLP里面,要估计的是: 似然率可以定义为: 极大似然估计vs对偶函数 似然率可以定义为: 根据P(y|x)的公式得对数似然函数: # 我们看看对偶函数是什么结果: 偶然?必然? “It so happens that…”??? 熵:不确定度 似然率:与知识的吻合度 最大熵:对不确定度的无偏见分配 最大似然率:对知识的无偏见理解 知识(确定)=不确定度的补集 目录 线性回归 逻辑斯蒂回归 最大熵模型 极大似然估计 模型学习浅谈 最大熵总结 最大熵应用举例(略) 最大熵源码分析(略) 最大熵包使用(略) 模型学习(训练)方法浅谈 GIS(Generalized Iterative Scaling) IIS(Improved Iterative Scaling) SDM(Steepest Descent Methods) (GDM, Gradient Descent) CG(Conjugate?Gradient) Newton method Quasi Newton method (DFP, Davidon-Fletcher-Powell) (BFGS, Broyden-Fletcher-Goldfarb-Shanno) L-BFGS(Limited-memory BFGS) 通用迭代算法 GIS (generalized iterative scaling) 通用迭代算法 GIS(generalized iterative scaling): 假定第0次迭代的初始模型为等概率的均匀分布。 用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布,如果超过了实际的,就把相应的模型参数变小;否则,将它们变大。 重复步骤 2 直到收敛。 GIS存在的问题 每次迭代的时间都很长 需要迭代很多次才能收敛 而且不太稳定,即使在 64 位计算机上都会出现溢出 GIS的可取之处 一个简单、实用的算法,很多最大熵工具包都实现了GIS算法 理论上,GIS算法的性能(训练速度)不如IIS,但是实际使用中取得的性能比IIS好 改进迭代算法IIS (Improved Iterative Scaling) 核心思想 求出两次迭代之间似然值差值的下限,然后最大化这个下限 基本步骤 IIS算法的前两步与GIS相同 在将线性等式约束对数线性规划问题转化为迭代求解问题后,使用最大似然概率法将问题再次转化为求最大下界问题 然后使用求偏导数法求得迭代步长,循环迭代得到最优解 似然函数 关键点 找到参数 似然函数的变化值 最大化改变量下界 改变量下界 IIS优点总结 优点 针对每一个参数,关于它的偏导与其它参数无关 针对k个参数,计算k个偏导就可以计算出改变量下界 最速下降法 (Steepest Descent Methods) 最速下降法又称为梯度下降法法(Gradient Descent) 作为一种基本的算法,他在最优化方法中占有重要地位。其优点是工作量少,存储变量较少,初始点要求不高;缺点是收敛慢,效率不高,有时达不到最优解。 共轭梯度法 (Conjugate Gradient) 共轭梯度法(Conjugate Gradient) 是介于梯度下降法与牛顿法之间的一个方 法,它仅需利用一阶导数信息,但克服了梯 度下降法收敛慢的缺点,又避免了牛顿法需要存储 和计算Hesse矩阵并求逆的缺点。 共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。 在各种优化算法中,共轭梯度法是非常重要的一种。其优点是所需存储量小,具有快收敛性,稳定性高,而且不需要任何外来参数。 牛顿法与拟牛顿法 牛顿法(Newton method)是迭代算法,每一步需要求解目标函数的hesse矩

文档评论(0)

docinppt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档