机器学习建模基础教学课件-分类算法-拼写错误检查.pptxVIP

下载本文档

0
0
约1.65千字
约 10页
2022-03-18 发布于广东
举报
版权申诉

机器学习建模基础教学课件-分类算法-拼写错误检查.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类算法单元6 02 任务 2 任务2：拼写错误检查任务描述和目标百度搜索具有拼写错误检查功能，比如在百度搜索中输入“somehwere”进行搜索时，百度会返回提示：您要找的是不是[somewhere]。 2 在本任务中我们就是要实现一个类似的拼写错误检查功能，当用户输入的是一个错误单词时，我们需要做的就是来预测出用户实际想输入的单词。如果这个单词是正确的，那么结果肯定就是自己本身了。任务描述任务目标学习贝叶斯定理及朴素贝叶斯分类算法的原理掌握使用朴素贝叶斯算法解决分类问题的方法一、贝叶斯分类贝叶斯分类器是一种基于统计的分类器，其分类原理是：确定某样本的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率类别作为样本的所属类别。它通过训练集（已分类的例子集）训练而归纳出分类器，并利用分类器对没有分类的数据进行分类。 2 二、贝叶斯定理 2 对于随机事件A和B，条件概率P(B|A)是在A发生的情况下B发生的可能性，条件概率的计算有如下公式：这个公式里面P(A)称为先验概率或边缘概率，P(B|A)称为后验概率，P(A|B)称为似然度。在此基础上，将事件B扩展到n个事件，即可得到贝叶斯定理的一个普遍定义：设实验E的样本空间为S，A为E的事件，Bi为S的一个划分，并且P(A)0,P(Bi)0，则：三、朴素贝叶斯分类算法 1.朴素贝叶斯分类的工作过程 2 ①　设D是训练样本和它们相关联的类标号的集合。每个样本用n维属性向量X={x1,x2,...,xn}表示。 ②　假定有m个类C1,C2,...,Cm。给定样本X，分类法将预测X属于具有最高后验概率的类。也就是说，朴素贝叶斯分类法预测X属于类Ci，当且仅当： ③　根据贝叶斯定理，可得： ④　为了降低计算开销，做了一个朴素贝叶斯假设的简化处理，假设x中的的特征是条件独立的。应用到似然函数中就是： ⑤　为了预测X的类标号，对每个类Ci，计算三、朴素贝叶斯分类算法 2.朴素贝叶斯的优缺点 2 优点：算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可！）分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储）在特征属性相关性较小时，朴素贝叶斯性能最为良好，其预测能力好于逻辑回归等其他算法。缺点：理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。任务实现实现思路 2 如果用户实际输入的单词为 w（word的简写）, 拼写纠正器猜测用户实际想输入的单词为 c1, c2 , c3 , ....... 等等多种猜测。如果发现P(c1 | w) 的概率最大，那么用户很有可能想输入的那个单词为 c1 。我们说，给定一个词 w，在所有正确的拼写词中，我们想要找一个正确的词 c，使得对于w的条件概率最大，也就是说按照贝叶斯理论上面的式子等价于因为用户可以输错任何词，因此对于任何c来讲，出现w的概率 P(w) 都是一样的，从而我们在上式中忽略它,写成在任务实现时，首先计算 P(c)：读入一个大的文本文件bigword.txt，使用train()函数训练一个概率模型。接下来，给定一个单词w，分别定义了一个可以返回所有与单词w编辑距离为1的集合的函数edits1()以及编辑距离为2的集合的函数edits2()，还定义了known_edits2()函数只返回那些正确的并且与w编辑距离小于2 的词的集合。最后利用correct 函数从一个候选集合中选取最大概率的。作业 1. 简述拼写错误检查问题处理的相关步骤。 Thank YOU!

您可能关注的文档

文档评论（0）

allen734901 + 关注: 实名认证

文档贡献者

副教授持证人

知识共享

咨询Ta 进入空间

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

更多 >

机器学习建模基础教学课件-分类算法-拼写错误检查.pptxVIP