- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯
朴素贝叶斯分类Thomas Bayes(1702-1761)根据贝叶斯定理先验概率(prior )样本空间中各类样本所占的比例,可通过各类样本出现的频率估计(大数定律)样本相对于类标记的类条件概率, 亦称似然(likelihood)用于归一化的证据因子,与类别标记无关贝叶斯定理
设Dc表示训练集D中第C类样本组成的集合,假设这些样本是独立同分布的。所有属性上的联合概率,难以从有限训练 样本估计获得;组合爆炸,d个二值属性,有2d种可能;样本稀疏。主要障碍:直接使用频率来估计P(x|C)是不可行的常用策略假定类条件概率具有某种确定的概率分布形式,基于训练样本对概率分布的参数θc进行估计。朴素贝叶斯分类
朴素贝叶斯分类? 先假设某种概率分布形式,再基于训练样例对参数进行估计θc对于训练集 D 中第 c 类样本组成的集合 Dc 的似然(likelihood)为:连乘易造成下溢对数似然θc的极大似然估计
属性条件独立假设d 为属性数, xi 为 x 在第 i 个属性上的取值P(x) 对所有类别相同,于是朴素贝叶斯判定准则:所有属性上的联合概率,难以从 有限训练样本估计获得。主要障碍:朴素贝叶斯分类
朴素贝叶斯分类属性条件独立假设对于离散属性第ci 类样本中,在第i 个属性上取值为xi 的样本组成的集合。训练集D中第ci 类样本组成的集合。对于连续属性假定估计P(xi|c)
训练样本案例:朴素贝叶斯分类器(NBC)假定收集了左表数据,那么对于任意给定的瓜(测试样例),你能帮助我识别瓜的归类吗?编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜1青绿蜷缩浊响清晰凹陷硬滑0.6970.46是2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376是3乌黑蜷缩浊响清晰凹陷硬滑0.6340.264是4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318是5浅白蜷缩浊响清晰凹陷硬滑0.5560.215是6青绿稍蜷浊响清晰稍凹软粘0.4030.237是7乌黑稍蜷浊响稍糊稍凹软粘0.4810.149是8乌黑稍蜷浊响清晰稍凹硬滑0.4370.211是9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.091否10青绿硬挺清脆清晰平坦软粘0.2430.267否11浅白硬挺清脆模糊平坦硬滑0.2450.057否12浅白蜷缩浊响模糊平坦软粘0.3430.099否13青绿稍蜷浊响稍糊凹陷硬滑0.6390.161否14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198否15乌黑稍蜷浊响清晰稍凹软粘0.360.37否16浅白蜷缩浊响模糊平坦硬滑0.5930.042否17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103否测试样本朴素贝叶斯分类
测试样本朴素贝叶斯分类
朴素贝叶斯分类测试样本续:
测试样本续:朴素贝叶斯分类
朴素贝叶斯分类测试样本于是:0.0386.8×10-5,因此,朴素贝叶斯分类器将测试样本判别为“好瓜”。
计数年龄收入学生信誉 归类:买计算机?64青高否良不买64青高否优不买128青中否良不买64青低是良买64老中是优买若某个属性值在训练集中没有与某个类同时出现过,则直接计算会出现问题。例:?令 N 表示训练集 D 中可能的类别数,Ni 表示第 i 个属性可能的取值数所有属性值相同?拉普拉斯修正(Laplacian correction)朴素贝叶斯分类
if __name__ == __main__: test1 = {色泽: 青绿, 根蒂: 蜷缩, 敲声: 浊响, 纹理: 清晰, 脐部: 凹陷, 触感: 硬滑, \ 密度: 0.697, 含糖率: 0.460} dataset, attrNum = readData() Pgood = getClassPrior(好瓜, 是, dataset, attrNum) Pbad = getClassPrior(好瓜, 否, dataset, attrNum) for i in test1: Pgood *= getClassCondition(i, test1[i], 好瓜, 是, dataset, attrNum) Pbad *= getClassCondition(i, test1[i], 好瓜, 否, dataset, attrNum) print(Pgood, Pbad) print(该西瓜是%s % (好瓜 if Pgood Pbad else 坏瓜))0.021801246405943577 4.915834021416594e-05该西瓜是好瓜朴素贝叶斯分类
贝叶斯分类是基于贝叶斯定理和属性特征条件独立性的分类方法。贝叶斯流派的核心:Probability theory is n
您可能关注的文档
最近下载
- 4郭永康光的干涉-14.ppt VIP
- 中职教育一年级上学期英语《We Are Friends》课件.pptx
- 4郭永康光的干涉-11.ppt VIP
- 《危险化学品目录(2015版)》(2022年调整)-标注为爆炸物的化学品.pdf VIP
- 湘南学院2021-2022学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
- 人美版小学四年级上册美术教案.pdf VIP
- 人教PEP版五年级上册英语Unit 2 My week单元整体教学设计(教案).docx VIP
- 4郭永康 光干涉-7 .ppt VIP
- 小学语文新部编版一年级上册全册教案(2025秋新版).doc
- 湘南学院2022-2023学年第2学期《高等数学(下)》期末试卷(B卷)附标准答案.pdf
文档评论(0)