最大熵与对数线性模型(用于分类问题)讲课要点.pdfVIP

最大熵与对数线性模型(用于分类问题)讲课要点.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大熵与对数线性模型(用于分类问题)讲课要点

最大熵与对数线性模型(用于分类问题)讲课要点 李正华 2015 年 12 月 6 日 目录 1 从最大熵原理(maximum entropy)到对数线性的形式(log-linear) 1 1.1 符号定义 . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 最大熵 . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 求解最大熵模型 . . . . . . . . . . . . . . . . . . . . . . . 3 2 Log-linear model 的似然函数及梯度 6 3 以词性标注为例,实现一个最大熵模型 6 3.1 Stochastic Gradient Descent (SGD) 训练,basic 版本 . . . 6 4 编程作业 6 5 SGD 训练,L2 regularization 7 6 模拟退火 7 7 一段真实的 C++ 程序,同时使用 L2 regularization 和模拟退火,供参考 7 8 Adwait Ratnaparkhi: A Simple Introduction to Maximum Entropy Models for Natural Language Processing (1997) 8 1 从最大熵原理(maximum entropy)到对数线性的形式(log- linear) 主要参考/afs/cs/user/aberger/www/html/tutorial/tutorial.html, 建议看到 outline 小节即可。同时也阅读了李航老师的《机器学习方法》相关部分。 我觉得这两个参考文献,在用拉格朗日乘子求解时,都有一些小的瑕疵。所以再写 一遍(还有个问题没有完全理解)。 1.1 符号定义 :表示一个数据集,包含 个实例 和对应的 个人工标注 类别标记 。 :表示类别集合, 。 1 Count :表示实例 在数据集 出现的概率,满足 ∑ Count :表示实例 及对应答案 在数据集 出现的概率,满足 ∑ 和 一般称为经验概率,即从数据中通过数数直接可以得到的概率。这 两个概率符号的引入,主要是为了简化下面的推导。 1.2 最大熵 在数据集 上,对一个模型(概率分布) 的熵的定义为: ∑ ∑

文档评论(0)

75986597 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档