- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常用的用于分类的机器学习工具介绍
常用的机器学习分类模型 决策树模型、贝叶斯模型、HMM模型、最大熵模型、支持向量机、条件随机场 我们今天简单介绍一下ME和CRF Outline 最大熵模型 Features Maximum Entropy Principle Maximum Likelihood Parameters Estimation Application 条件随机场介绍 参考文献 Berger et al, A Maximum Entropy to Natural Language Processing Berger’s ME tutorials: /~berger/maxent.html Klein’s ACL 2003 tutorials Adwait Ratnaparkhi的博士论文: /pub/ircs/tr/98-15/98-15.ps.gz 分类问题 很多问题都可以表述为分类问题: (x1,y1),(x2,y2),(xn,yn) 这里xi是数据,yi是类别。 如在机器翻译的译词选择中,x表示原文单词及其语境,y表示译文,则 (漂亮女孩,pretty), (漂亮夫人,beautiful), (漂亮男人,handsome),... 又比如在文本分类中,xi是含有某个文本,yi就是该文本的类别,如政治、经济、科技等。 随机过程 又比如在词性标注中,x表示待标注词的前后文,y表示该词的标注,则 (前一个词为modal, 这个词为verb), (前一个词为det, 这个词为adj), 把(x,y)作为一个随机过程,x的集合构成X,y的集合构成Y. Y一般是离散的 (x,y)构成样本空间。给定一个训练样本,我们感兴趣的概率模型是P(Y=y|X=x),一般写作 P(y|x)。如何建立该模型? 样本概率分布 我们建立的模型,最好要符合训练样本,也就是说,P(y|x) 满足样本概率分布 比如,在样本里,如果“漂亮”翻译成“pretty”的概率为0.3,我们希望我们的模型的预测结果也一样。当然,最大似然估计不太好。 我们引入特征函数的概念来更加细致地表达样本的性质 特征函数 引入布尔特征函数f(x,y),取值{0,1},如 f(x,y)=1: if (x=漂亮,后面跟“男人”) (y=handsome) 0: otherwise 可以引入任意多个特征函数fi(x,y),一般特征函数的形式为fi(x,y)≡φ(x)∧y=c. 虽然我们这里只考虑布尔特征,但是实际上特征函数可以是:f:X×Y→R (实数集),(后面我们会看到,布尔特征也够了) 特征 一个特征在样本中出现的次数,可以如下计算: 看起来复杂,其实只是数一数特征=1的次数 假如我们有一个联合概率模型P(x,y),则该模型下某个特征的期望值是 模型必须符合样本 我们希望 对所有的特征函数i=1,2,...N成立。 我们并且希望建立条件概率模型而不是联合概率模型,因为前者直接可以用于贝叶斯决策。(P(y|x)P(x)=P(x,y)) P(x,y)=P(x)P(y|x) 我们希望边际分布 因此 这样的条件概率模型可以和训练数据相符。这些特征方程表达对模型的限制。 最一般的概率模型 对于给定的训练样本,当确定好特征函数以及特征方程以后,可能有很多个模型满足特征限制。 如扔骰子,如样本中“点数为1的概率” = 0.4,哪些模型满足呢? P(1)=0.4, P(2)=0.1, P(3)=0.1, P(4)=0.2,P(5)=0.1,P(6)=0.1 P(1)=0.4, p(点数为2-6)=(1-0.4)/5=0.12 哪一个模型好呢? 最一般的模型是满足限制的尽可能均匀分布的概率模型 最大熵原则 熵最大的模型是最一般的概率模型 make things as simple as possible,but not simpler; do not pretend you know something you don’t 模型p(y|x)的条件熵: p*=argmax p H(p) 最大熵模型求解 问题:满足限制条件下的极值问题 采用拉格朗日乘子法 拉格朗日乘子法 熵是凸函数,解唯一 其中,Z(x) 称为 normalization factor,也称为partition function 模型具有指数形式。求对数: log(p*)= ?i ? i f i(x,y) – log(Z(x)) 因此也叫 log-linear model 上述求解过
您可能关注的文档
- 山东省会计从业资格考试《会计基础》上机考试题库十五.doc
- 山东省聊城市历年中考语文试题及答案.doc
- 山东科技职业学院工学结合课程改革的实施方案.doc
- 山东省市政公用程安全文明工地考评.doc
- 山东美术版小学品德与社会五年级上册《震撼世界的绿色革命》课件.ppt
- 山人版小学四年级品德与社会上册《邻里一家亲亲》课件.ppt
- 山区铁路长途通信光缆线路工程建设的几个问题.doc
- 山地型别墅区规划案例--xcowman.ppt
- 山美版品德社会三年级上册一二单元检测卷.ppt
- 山水画意境.ppt
- 分析let s单元56ago2卷纸zheng unit56.pdf
- 塑胶材料其它分类原料pa9t 12.pdf
- md16x16数字媒体切换器设备.pdf
- 者参考项目发起人学科类型单位序列承包商修订页代码顺序典型.pdf
- 届世界天然气大会阿姆斯特丹2006add10288.pdf
- 期测试记录表每周weekly g1g6 journeys tests level 6 lesson26.pdf
- modernize-whitepaper现代化您应用程序白皮书.pdf
- anybackup产品典型案例分析.pdf
- 约克金融工程课程tfeslide32.pdf
- 广州市妇女儿童医疗中心历份教学药历01tjy.pdf
文档评论(0)