贝叶斯方法解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贝叶斯方法解析

例:某个学校有60%男生,40%女生,男生都穿长裤,女生有一半长裤一半裙子,求该学校穿长裤的学生是男生的概率。 B=是男生(类别),A=穿长裤(特征) P(B)=0.6, P(A)=0.6+0.2=0.8, P(A|B)=1.0, 于是 P(B|A)=P(A|B)P(B)/P(A)=1*0.6/0.8=0.75 例:垃圾邮件过滤 From: ‘‘’’ takworlld@ Subject: real estate is the only way... gem oalvgkay Anyone can buy real estate with no money down Stop paying rent TODAY ! I am 22 years old and I have already purchased 6 properties using the methods outlined in this truly INCREDIBLE ebook. Change your life NOW ! ============================================= Click Below to order: /sales/nmd.htm ============================================= 如何实现对上类信息的识别和过滤? 文本分类器 文档 d 属于类别 c 的概率计算如下: nd 是文档里词的个数 P(tk |c) 是词tk 出现在类别c中文档的概率 P(c) 是类别c的先验概率 独立性假设:P(d|c)=P(t1|c)P(t2|c)…P(tnd|c) * 如何从训练数据中估计 和 ? 先验: 其中,Nc : 类c中的文档数目; N: 所有文档的总数 条件概率: 其中Tct 是训练集中类别c中的词条t的个数 (多次出现要计算多次) * 避免零概率: Laplacian平滑 平滑后: 其中,B 是不同词语的个数 ,即词汇表大小 * 对测试文档进行分类 * 因此, 分类器将测试文档分到c = China类! * 对数计算 很多小概率的乘积会导致溢出; 由于 log(xy) = log(x) + log(y), 可以通过取对数将乘积变成简单的求和; 由于log是单调递增函数,不改变后验概率的大小关系: 设某种诊断试验,结果为“正常ω1”或“异常ω2” 。 根据临床试验正常的概率0.9,异常概率0.1; 对某一样本x,通过计算或查表可知 p(x|ω1)=0.2,p(x|ω2)=0.4. 判定其类别? 最小风险 但是 当考虑到对于某一类的错误判决要比对另一类的判决更为关键时,需要考虑最小条件平均风险 其中Lij称为将本应属于ωi类的模式判别成属于ωj类的代价。

文档评论(0)

wbjsn + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档