机器学习建模基础教学课件-分类算法-拼写错误检查.pptxVIP

机器学习建模基础教学课件-分类算法-拼写错误检查.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类算法 单元6 02 任务 2 任务2:拼写错误检查 任务描述和目标 百度搜索具有拼写错误检查功能,比如在百度搜索中输入“somehwere”进行搜索时,百度会返回提示:您要找的是不是[somewhere]。 2 在本任务中我们就是要实现一个类似的拼写错误检查功能,当用户输入的是一个错误单词时,我们需要做的就是来预测出用户实际想输入的单词。如果这个单词是正确的,那么结果肯定就是自己本身了。 任务描述 任务目标 学习贝叶斯定理及朴素贝叶斯分类算法的原理 掌握使用朴素贝叶斯算法解决分类问题的方法 一、贝叶斯分类 贝叶斯分类器是一种基于统计的分类器,其分类原理是:确定某样本的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率类别作为样本的所属类别。它通过训练集(已分类的例子集)训练而归纳出分类器,并利用分类器对没有分类的数据进行分类。 2 二、贝叶斯定理 2 对于随机事件A和B,条件概率P(B|A)是在A发生的情况下B发生的可能性,条件概率的计算有如下公式: 这个公式里面P(A)称为先验概率或边缘概率,P(B|A)称为后验概率,P(A|B)称为似然度。在此基础上,将事件B扩展到n个事件,即可得到贝叶斯定理的一个普遍定义:设实验E的样本空间为S,A为E的事件,Bi为S的一个划分,并且P(A)0,P(Bi)0,则: 三、朴素贝叶斯分类算法 1.朴素贝叶斯分类的工作过程 2 ① 设D是训练样本和它们相关联的类标号的集合。每个样本用n维属性向量X={x1,x2,...,xn}表示。 ② 假定有m个类C1,C2,...,Cm。给定样本X,分类法将预测X属于具有最高后验概率的类。也就是说,朴素贝叶斯分类法预测X属于类Ci,当且仅当 : ③ 根据贝叶斯定理,可得: ④ 为了降低计算开销,做了一个朴素贝叶斯假设的简化处理,假设x中的的特征是条件独立的。应用到似然函数中就是: ⑤ 为了预测X的类标号,对每个类Ci,计算 三、朴素贝叶斯分类算法 2.朴素贝叶斯的优缺点 2 优点: 算法逻辑简单,易于实现(算法思路很简单,只要使用贝叶斯公式转化即可!) 分类过程中时空开销小(假设特征相互独立,只会涉及到二维存储) 在特征属性相关性较小时,朴素贝叶斯性能最为良好,其预测能力好于逻辑回归等其他算法。 缺点: 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。 任务实现 实现思路 2 如果用户实际输入的单词为 w(word的简写), 拼写纠正器猜测用户实际想输入的单词为 c1, c2 , c3 , .......  等等多种猜测。如果发现P(c1 | w) 的概率最大,那么用户很有可能想输入的那个单词为 c1 。我们说,给定一个词 w,在所有正确的拼写词中,我们想要找一个正确的词 c,使得对于w的条件概率最大,也就是说 按照 贝叶斯理论 上面的式子等价于 因为用户可以输错任何词,因此对于任何c来讲,出现w的概率 P(w) 都是一样的,从而我们在上式中忽略它,写成 在任务实现时,首先计算 P(c):读入一个大的文本文件bigword.txt,使用train()函数训练一个概率模型。接下来,给定一个单词w,分别定义了一个可以返回所有与单词w编辑距离为1的集合的函数edits1()以及编辑距离为2的集合的函数edits2(),还定义了known_edits2()函数只返回那些正确的并且与w编辑距离小于2 的词的集合。最后利用correct 函数从一个候选集合中选取最大概率的。 作业 1. 简述拼写错误检查问题处理的相关步骤。 Thank YOU!

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档