逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.pptVIP

下载本文档

41
0
约 80页
2017-08-20 发布于重庆
举报
版权申诉

逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

逻辑斯蒂回归与最大熵-哈尔滨工业大学社会计算与信息检索研究中心.ppt

HIT-SCIR 李泽魁 2013-11-22 MaxEnt已经是比较成功的一个NLP模型，并获得广泛应用。从信息论获得启发（1948-）：自然语言处理也是信息处理的一种。对偶问题：从另一个角度看问题。实际上，现在很多分布算法就是利用对偶原理把一个复杂的大问题变成可以分布计算的小问题…… 可能从不同领域获得的启发。（概率论与随机过程、最优化问题、图形学……） 6.2.4 极大似然估计最大似然估计：找出与样本的分布最接近的概率分布模型。栗子一个：抛硬币十次正正反正正正反反正正设正面的概率为p 极大似然估计是什么最大似然率：找出与样本的分布最接近的概率分布模型。最优解是：p=0.7 似然率的一般定义：极大似然估计vs对偶函数似然率的一般定义：似然率的对数形式：极大似然估计vs对偶函数在NLP里面，要估计的是：似然率是：是常数，可以忽略极大似然估计vs对偶函数在NLP里面，要估计的是：似然率可以定义为：极大似然估计vs对偶函数似然率可以定义为：根据P(y|x)的公式得对数似然函数： # 我们看看对偶函数是什么结果：偶然？必然？ “It so happens that…”??? 熵：不确定度似然率：与知识的吻合度最大熵：对不确定度的无偏见分配最大似然率：对知识的无偏见理解知识（确定）＝不确定度的补集目录线性回归逻辑斯蒂回归最大熵模型极大似然估计模型学习浅谈最大熵总结最大熵应用举例（略）最大熵源码分析（略）最大熵包使用（略）模型学习（训练）方法浅谈 GIS(Generalized Iterative Scaling) IIS(Improved Iterative Scaling) SDM(Steepest Descent Methods) (GDM, Gradient Descent) CG(Conjugate?Gradient) Newton method Quasi Newton method (DFP, Davidon-Fletcher-Powell) (BFGS, Broyden-Fletcher-Goldfarb-Shanno) L-BFGS(Limited-memory BFGS) 通用迭代算法 GIS(generalized iterative scaling) 通用迭代算法 GIS(generalized iterative scaling)：假定第0次迭代的初始模型为等概率的均匀分布。用第 N 次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小；否则，将它们变大。重复步骤 2 直到收敛。 GIS存在的问题每次迭代的时间都很长需要迭代很多次才能收敛而且不太稳定，即使在 64 位计算机上都会出现溢出 GIS的可取之处一个简单、实用的算法，很多最大熵工具包都实现了GIS算法理论上，GIS算法的性能(训练速度)不如IIS，但是实际使用中取得的性能比IIS好改进迭代算法IIS(Improved Iterative Scaling) 核心思想求出两次迭代之间似然值差值的下限，然后最大化这个下限基本步骤 IIS算法的前两步与GIS相同在将线性等式约束对数线性规划问题转化为迭代求解问题后，使用最大似然概率法将问题再次转化为求最大下界问题然后使用求偏导数法求得迭代步长，循环迭代得到最优解似然函数关键点找到参数似然函数的变化值最大化改变量下界改变量下界 IIS优点总结优点针对每一个参数，关于它的偏导与其它参数无关针对k个参数，计算k个偏导就可以计算出改变量下界最速下降法(Steepest Descent Methods) 最速下降法又称为梯度下降法法(Gradient Descent) 作为一种基本的算法，他在最优化方法中占有重要地位。其优点是工作量少，存储变量较少，初始点要求不高；缺点是收敛慢，效率不高，有时达不到最优解。共轭梯度法（Conjugate Gradient）共轭梯度法（Conjugate Gradient）是介于梯度下降法与牛顿法之间的一个方法，它仅需利用一阶导数信息，但克服了梯度下降法收敛慢的缺点，又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点。共轭梯度法不仅是解决大型线性方程组最有用的方法之一，也是解大型非线性最优化最有效的算法之一。在各种优化算法中，共轭梯度法是非常重要的一种。其优点是所需存储量小，具有快收敛性，稳定性高，而且不需要任何外来参数。牛顿法与拟牛顿法牛顿法(Newton method)是迭代算法，每一步需要求解目标函数的hesse矩