常用的用于分类的机器学习工具介绍.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常用的用于分类的机器学习工具介绍

常用的机器学习分类模型 决策树模型、贝叶斯模型、HMM模型、最大熵模型、支持向量机、条件随机场 我们今天简单介绍一下ME和CRF Outline 最大熵模型 Features Maximum Entropy Principle Maximum Likelihood Parameters Estimation Application 条件随机场介绍 参考文献 Berger et al, A Maximum Entropy to Natural Language Processing Berger’s ME tutorials: /~berger/maxent.html Klein’s ACL 2003 tutorials Adwait Ratnaparkhi的博士论文: /pub/ircs/tr/98-15/98-15.ps.gz 分类问题 很多问题都可以表述为分类问题: (x1,y1),(x2,y2),(xn,yn) 这里xi是数据,yi是类别。 如在机器翻译的译词选择中,x表示原文单词及其语境,y表示译文,则 (漂亮女孩,pretty), (漂亮夫人,beautiful), (漂亮男人,handsome),... 又比如在文本分类中,xi是含有某个文本,yi就是该文本的类别,如政治、经济、科技等。 随机过程 又比如在词性标注中,x表示待标注词的前后文,y表示该词的标注,则 (前一个词为modal, 这个词为verb), (前一个词为det, 这个词为adj), 把(x,y)作为一个随机过程,x的集合构成X,y的集合构成Y. Y一般是离散的 (x,y)构成样本空间。给定一个训练样本,我们感兴趣的概率模型是P(Y=y|X=x),一般写作 P(y|x)。如何建立该模型? 样本概率分布 我们建立的模型,最好要符合训练样本,也就是说,P(y|x) 满足样本概率分布 比如,在样本里,如果“漂亮”翻译成“pretty”的概率为0.3,我们希望我们的模型的预测结果也一样。当然,最大似然估计不太好。 我们引入特征函数的概念来更加细致地表达样本的性质 特征函数 引入布尔特征函数f(x,y),取值{0,1},如 f(x,y)=1: if (x=漂亮,后面跟“男人”) (y=handsome) 0: otherwise 可以引入任意多个特征函数fi(x,y),一般特征函数的形式为fi(x,y)≡φ(x)∧y=c. 虽然我们这里只考虑布尔特征,但是实际上特征函数可以是:f:X×Y→R (实数集),(后面我们会看到,布尔特征也够了) 特征 一个特征在样本中出现的次数,可以如下计算: 看起来复杂,其实只是数一数特征=1的次数 假如我们有一个联合概率模型P(x,y),则该模型下某个特征的期望值是 模型必须符合样本 我们希望 对所有的特征函数i=1,2,...N成立。 我们并且希望建立条件概率模型而不是联合概率模型,因为前者直接可以用于贝叶斯决策。(P(y|x)P(x)=P(x,y)) P(x,y)=P(x)P(y|x) 我们希望边际分布 因此 这样的条件概率模型可以和训练数据相符。这些特征方程表达对模型的限制。 最一般的概率模型 对于给定的训练样本,当确定好特征函数以及特征方程以后,可能有很多个模型满足特征限制。 如扔骰子,如样本中“点数为1的概率” = 0.4,哪些模型满足呢? P(1)=0.4, P(2)=0.1, P(3)=0.1, P(4)=0.2,P(5)=0.1,P(6)=0.1 P(1)=0.4, p(点数为2-6)=(1-0.4)/5=0.12 哪一个模型好呢? 最一般的模型是满足限制的尽可能均匀分布的概率模型 最大熵原则 熵最大的模型是最一般的概率模型 make things as simple as possible,but not simpler; do not pretend you know something you don’t 模型p(y|x)的条件熵: p*=argmax p H(p) 最大熵模型求解 问题:满足限制条件下的极值问题 采用拉格朗日乘子法 拉格朗日乘子法 熵是凸函数,解唯一 其中,Z(x) 称为 normalization factor,也称为partition function 模型具有指数形式。求对数: log(p*)= ?i ? i f i(x,y) – log(Z(x)) 因此也叫 log-linear model 上述求解过

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档