常用的用于分类的机器学习工具介绍.ppt

下载文档 降价啦

43
0
约1.05万字
约 64页
2017-12-01 发布于江西
举报
版权申诉
保障服务

常用的用于分类的机器学习工具介绍.ppt

1、本文档共64页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

常用的用于分类的机器学习工具介绍

常用的机器学习分类模型决策树模型、贝叶斯模型、HMM模型、最大熵模型、支持向量机、条件随机场我们今天简单介绍一下ME和CRF Outline 最大熵模型 Features Maximum Entropy Principle Maximum Likelihood Parameters Estimation Application 条件随机场介绍参考文献 Berger et al, A Maximum Entropy to Natural Language Processing Berger’s ME tutorials: /~berger/maxent.html Klein’s ACL 2003 tutorials Adwait Ratnaparkhi的博士论文： /pub/ircs/tr/98-15/98-15.ps.gz 分类问题很多问题都可以表述为分类问题： (x1,y1),(x2,y2),(xn,yn) 这里xi是数据，yi是类别。如在机器翻译的译词选择中，x表示原文单词及其语境，y表示译文，则（漂亮女孩，pretty)，（漂亮夫人，beautiful)，（漂亮男人，handsome)，... 又比如在文本分类中，xi是含有某个文本，yi就是该文本的类别，如政治、经济、科技等。随机过程又比如在词性标注中，x表示待标注词的前后文，y表示该词的标注，则（前一个词为modal, 这个词为verb）, （前一个词为det, 这个词为adj）, 把（x,y)作为一个随机过程，x的集合构成X，y的集合构成Y. Y一般是离散的（x,y)构成样本空间。给定一个训练样本，我们感兴趣的概率模型是P(Y=y|X=x)，一般写作 P(y|x)。如何建立该模型？样本概率分布我们建立的模型，最好要符合训练样本，也就是说，P(y|x) 满足样本概率分布比如，在样本里，如果“漂亮”翻译成“pretty”的概率为0.3，我们希望我们的模型的预测结果也一样。当然，最大似然估计不太好。我们引入特征函数的概念来更加细致地表达样本的性质特征函数引入布尔特征函数f(x,y)，取值{0,1}，如 f(x,y)=1: if (x=漂亮，后面跟“男人”） (y=handsome) 0: otherwise 可以引入任意多个特征函数fi(x,y)，一般特征函数的形式为fi(x,y)≡φ(x)∧y=c. 虽然我们这里只考虑布尔特征，但是实际上特征函数可以是：f:X×Y→R (实数集),（后面我们会看到，布尔特征也够了）特征一个特征在样本中出现的次数，可以如下计算：看起来复杂，其实只是数一数特征=1的次数假如我们有一个联合概率模型P(x,y),则该模型下某个特征的期望值是模型必须符合样本我们希望对所有的特征函数i=1,2,...N成立。我们并且希望建立条件概率模型而不是联合概率模型，因为前者直接可以用于贝叶斯决策。(P(y|x)P(x)=P(x,y)) P(x,y)=P(x)P(y|x) 我们希望边际分布因此这样的条件概率模型可以和训练数据相符。这些特征方程表达对模型的限制。最一般的概率模型对于给定的训练样本，当确定好特征函数以及特征方程以后，可能有很多个模型满足特征限制。如扔骰子，如样本中“点数为1的概率” = 0.4，哪些模型满足呢？ P(1)=0.4, P(2)=0.1, P(3)=0.1, P(4)=0.2,P(5)=0.1,P(6)=0.1 P(1)=0.4, p（点数为2-6）=（1-0.4)/5=0.12 哪一个模型好呢？最一般的模型是满足限制的尽可能均匀分布的概率模型最大熵原则熵最大的模型是最一般的概率模型 make things as simple as possible，but not simpler; do not pretend you know something you don’t 模型p(y|x)的条件熵： p*=argmax p H(p) 最大熵模型求解问题：满足限制条件下的极值问题采用拉格朗日乘子法拉格朗日乘子法熵是凸函数，解唯一其中，Z(x) 称为 normalization factor，也称为partition function 模型具有指数形式。求对数： log(p*)= ?i ? i f i(x,y) – log(Z(x)) 因此也叫 log-linear model 上述求解过