最大熵模型(matlab应用).pptVIP

下载本文档

70
0
约1.06万字
约 92页
2021-11-11 发布于广东
举报
版权申诉

最大熵模型(matlab应用).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

对偶问题　Alice vs Bob Version 1: Alice的估计=结果=Bob的估计 Version 2: Alice的估计结果=Bob的估计一般情况:Alice的估计=结果=Bob的估计定理：当存在马鞍点（Saddle Point）的时候，等号成立。并且结果=马鞍点的值。马鞍点：第六十二页，编辑于星期六：八点三十六分。更一般地，如果Ｃ不是矩阵，而是一个函数，Ｃ（ｘ，ｙ）这个结果仍然成立。严格的证明还是有点麻烦的，直观地说，矮子里面挑高个，再高也比高子里面挑矮个挑出来的矮．如果刚好有一个人是高子里面最矮的，又是矮子里面最高的，那马鞍点就是他了。:P 非线性规划中的对偶问题拉格朗日函数：于是：因此，为了尽量大，p的选取必须保证考虑：第六十三页，编辑于星期六：八点三十六分。只要令lambda(i)=负无穷大就行了对偶问题与拉格朗日函数：同时：等价于：而第六十四页，编辑于星期六：八点三十六分。可以证明，这里等号成立。不过证明比较复杂，是单独一篇论文了（见参考资料４）对偶问题与拉格朗日函数：第六十五页，编辑于星期六：八点三十六分。至此，我们可以通过找min lambda L(p*,lambda)来找出合适的lambda了，这可以用各种近似方法（因为不是求导数的相等了）比如迭代算法、梯度算法之类的。论文里的算法在本章最后给出解释已知与未知的关系—例子已知： “学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… “学习”被标为定语的可能性很小，只有0.05 当“学习”被标作动词的时候，它被标作谓语的概率为0.95 除此之外，仍然坚持无偏见原则，我们尽量使概率分布平均。但问题是：什么是尽量平均的分布？引入这个新的知识：第三十页，编辑于星期六：八点三十六分。这个情况已经不容易用直观的平均来解决了。比如当x1发生的时候，y4的可能是多大?怎样平衡y4和y2,y1=y3这三者的关系呢? 最大熵模型Maximum Entropy 概率平均分布〈=〉熵最大我们要一个x和y的分布，满足：同时使H(Y|X)达到最大值第三十一页，编辑于星期六：八点三十六分。一般我们用H(Y|X),其实这跟用H(XY)是一个效果。因为H(XY)=H(Y|X)+H(X)．而X是训练集合已经知道的（记住：我们认为训练集合是有代表性的），所以H(X)是一个确定值。使H(XY)最大相当于使H(Y|X)最大最大熵模型Maximum Entropy 第三十二页，编辑于星期六：八点三十六分。最大熵模型Maximum Entropy What is Constraints? --模型要与已知知识吻合 What is known? --训练数据集合一般模型： P={p|p是X上满足条件的概率分布} 第三十三页，编辑于星期六：八点三十六分。其实就是对待已知与未知事物的“已知”部分原则。“未知”部分是刚才说的熵最大原则。其中的p(xy)=p(y|x)*q(x) q(x)是训练样本中的ｘ的分布。因为我们认为训练样本的分布是有代表性的特征(Feature) 特征：(x,y) y:这个特征中需要确定的信息 x:这个特征中的上下文信息注意一个标注可能在一种情况下是需要确定的信息，在另一种情况下是上下文信息： x1x2…xn p(y1=a|x1x2…xn) x1x2…xn y1 p(y2=a|x1x2…xn y1) 第三十四页，编辑于星期六：八点三十六分。在标注y1的时候，y1是需要确定的信息在标注y2的时候，y1是确定的上下文信息样本(Sample) 关于某个特征(x,y)的样本--特征所描述的语法现象在标准集合里的分布： (xi,yi) pairs yi是y的一个实例 xi是yi的上下文 (x1,y1) (x2,y2) (x3,y3)…… 第三十五页，编辑于星期六：八点三十六分。 “样本”应该是指标准集合里面的所有标注。我们在这里只关心某个特征(x,y)。所以，标准集合里面与(x,y)无关的信息全部不考虑。见Adam的Tutorial里面的Feature and Constraints部分特征与样本已知： “学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… “学习”被标为定语的可能性很小，只有0.05 特征：当“学习”被标作动词的时候，它被标作谓语的概率为0.95 x是什么? y是什么? 样本是什么? 第三十六页，编辑于星期六：八点三十六分。 x:学习被标动词 y:学习被标作谓语样本：所有对“学习”的句子成分标注特征与样本已知： “学习”可能是动词，也可能是名词。可以被标为主语、谓语、宾语、定语…… 特征：“学习”被