贝叶斯方法解析.ppt

下载文档 降价啦

0
0
约1.26千字
约 10页
2017-01-14 发布于辽宁
举报
版权申诉
保障服务

贝叶斯方法解析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

贝叶斯方法解析

例：某个学校有60%男生，40%女生，男生都穿长裤，女生有一半长裤一半裙子，求该学校穿长裤的学生是男生的概率。 B=是男生（类别），A=穿长裤（特征） P(B)=0.6, P(A)=0.6+0.2=0.8, P(A|B)=1.0, 于是 P(B|A)=P(A|B)P(B)/P(A)=1*0.6/0.8=0.75 例：垃圾邮件过滤 From: ‘‘’’ takworlld@ Subject: real estate is the only way... gem oalvgkay Anyone can buy real estate with no money down Stop paying rent TODAY ! I am 22 years old and I have already purchased 6 properties using the methods outlined in this truly INCREDIBLE ebook. Change your life NOW ! ============================================= Click Below to order: /sales/nmd.htm ============================================= 如何实现对上类信息的识别和过滤？文本分类器文档 d 属于类别 c 的概率计算如下： nd 是文档里词的个数 P(tk |c) 是词tk 出现在类别c中文档的概率 P(c) 是类别c的先验概率独立性假设：P(d|c)=P(t1|c)P(t2|c)…P(tnd|c) * 如何从训练数据中估计和？先验: 其中，Nc : 类c中的文档数目; N: 所有文档的总数条件概率: 其中Tct 是训练集中类别c中的词条t的个数 (多次出现要计算多次) * 避免零概率: Laplacian平滑平滑后: 其中，B 是不同词语的个数，即词汇表大小 * 对测试文档进行分类 * 因此, 分类器将测试文档分到c = China类！ * 对数计算很多小概率的乘积会导致溢出；由于 log(xy) = log(x) + log(y), 可以通过取对数将乘积变成简单的求和；由于log是单调递增函数，不改变后验概率的大小关系：设某种诊断试验，结果为“正常ω1”或“异常ω2” 。根据临床试验正常的概率0.9,异常概率0.1；对某一样本x，通过计算或查表可知 p(x|ω1)=0.2，p(x|ω2)=0.4. 判定其类别? 最小风险但是当考虑到对于某一类的错误判决要比对另一类的判决更为关键时，需要考虑最小条件平均风险其中Lij称为将本应属于ωi类的模式判别成属于ωj类的代价。