- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
详解隐马尔科夫模型_光环大数据培训
光环大数据--大数据培训知名品牌
详解隐马尔科夫模型_光环大数据培训
隐马尔科夫模型是用于标注问题的统计机器学习模型,是一种生成模型。隐
马尔科夫模型是关于时序的概率模型,它描述了由一个隐藏的马尔科夫链随机生
成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的
过程。本文将重点介绍这种经典的机器学习模型。
简介
机器学习一个经典的问题就是学习一个能区分两个或多个类别的分类器,即
在给定训练样本下能预测新样本所属的类别。机器学习分类器经常用于处理NLP
任务,例如将邮件根据内容分类为垃圾邮件或正常邮件,将新闻按内容分为不同
的主题等。但除了这种分类任务,NLP 还有很多都涉及到另一种与结构有关的预
测,这种结构化预测一般可用概率图表示。
NLP 中一个经典的案例就是词性标注问题。在该任务中,x_i 表示一个个的
单词,y_i 表示对应 x_i 的词性(如名词、动词和形容词等)。对于这种任务来
说,输入的和输出都是一个序列,即给定一个单词序列,模型的输出为对应单词
的标注序列,这种序列是与对应位置和上下文相关,所以是一种与结构相关的预
测。
在这种序列预测问题中,数据由(x,y)的序列组成,即一个样本可描述为
(x_1,x_2,…,x_m,y_1,y_2,…,y_m)。我们要学习的是在给定一个x 的序列下,
各种y 序列的概率是多少,即:
在大多数问题中,这些序列具有顺序相关性。即x 近邻的值与y 近邻的值具
有相关性,或者也可以说 x_i 的近邻决定了y_i 的属性。例如在英语中,介词
to (x_i)后面所带的单词常常是动词(y_i)。当然在机器学习中还有其它的任
务涉及序列数据,例如在时序建模中,我们需要使用所有前面的观测值y 在t+1
步时预测新的y。在序列监督学习中,我们必须序列地预测所有y 值。
隐马尔科夫模型(HMM)是第一个针对序列分类所提出的算法。当然还有其
它很多的序列模型,不过本文会从朴素贝叶斯模型开始逐步扩展到HMM。
光环大数据
光环大数据--大数据培训知名品牌
朴素贝叶斯分类器
朴素贝叶斯(分类器)是一种生成模型,它会基于训练样本对每个可能的类
别建模。在预测中,朴素贝叶斯分类器在给定一个观察样本下,它会计算所有可
能类别的概率并返回最可能由观察样本生成的类别。也就是说,朴素贝叶斯分类
器会预测新样本最可能生成的类别是什么。相比之下,如Logistic 回归那样的
判别模型会尝试学习训练样本中的哪些特征最可能对区分类别起作用。
朴素贝叶斯模型在给定特征下最大化后验概率而返回最可能的类别:
其中y 为类别,xarrow 为一个观察样本的特征向量。
NB 分类器是基于贝叶斯定理的,若我们将贝叶斯定理代入到上式,那么条
件概率可以写为:
在训练中,对于一个给定的观察样本,我们可以用上式计算给定观察样本下
是某个类别的概率,这样迭代地可以计算所有类别的概率。又因为分母对所有项
都是相同的,且不影响最大化概率的结果,上式可以简写为以下:
如果我们将向量按分量分解出来,那么原式可以写为:
这个式子非常难以计算,因为它涉及到估计所有特征可能的组合。因此,我
们可以根据朴素贝叶斯假设放宽各特征的条件。朴素贝叶斯定理假设:「给定一
个类别,每一个特征都与其它特征条件独立」。该假设可以表示为
p(x_i|y,x_j)=p(x_i|y),其中i 不等于j。在给定类别y 的条件下,概率p(x_i
∣y)是相互独立的,因此也就能如下简单地乘积表示联合分布:
将上式带入后验概率可得:
上式就是我们最终得到的朴素贝叶斯模型,我们根据朴素贝叶斯假设大大地
简化了计算。
训练
朴素贝叶斯的训练主要由计算特征和类别的频率而实现。以下描述的过程需
要对每一个类别y_i 都执行一次计算。为了计算先验概率,我们简单地通过计算
所有样本中类别y_i 占的比率而估计类别出现的概率:
为了计算似然度估计,我们需要计算x_i 和y_i 一同出现的次数占y_i 所出
现次数的比率,来估计在y_i 出现的情况
您可能关注的文档
最近下载
- SYB创业专题计划书模板第二版.pdf VIP
- 湖北自考工程造价和管理07138知识点汇总.doc VIP
- 模拟电子学基础(第二版)陈光梦习题解答.pdf
- 北师大版高二英语必修五教案unit15Lesson1LifelongLearning.doc VIP
- 电梯安装施工方案无脚手架.doc VIP
- 巧用对比篇-2024年中考语文作文写作技巧精讲课堂.pptx
- 电焊应急预案及处置方案.docx VIP
- 高空作业安全监理实施细则.pdf VIP
- 制药专用控制系统系列:Rockwell Automation PharmaSuite_(2).PharmaSuite系统架构与组件.docx VIP
- 制药专用控制系统系列:Rockwell Automation PharmaSuite_(3).PharmaSuite在制药行业的应用案例.docx VIP
原创力文档


文档评论(0)