刘海波PR02-贝叶斯分类器.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刘海波PR02-贝叶斯分类器

* 注意:这种方法没有计入先验概率,相当于假定垃圾邮件和正常邮件出现的概率相等 例2-4: 垃圾邮件A包含“法轮功” 垃圾邮件B包含“法律” 根据A生成ht1为: 法:1次 轮:1次 功:1次 根据B生成ht2为: 法:1次 律:1次 计算A中各字出现概率: 法:0.3 轮:0.3 功:0.3 计算B中各字出现概率: 法:0.5 律:0.5 计算出现各字时是垃圾邮件的概率: P(S|法)=0.3/(0.3+0.5)=0.375 P(S|轮)=0.3/(0.3+0)=1 P(S|功)=0.3/(0.3+0)=1 P(S|律)=0/(0+0.5)=0 生成哈希表ht_spam: 法:0.375 轮:1 功:1 律:0 * 注意:计算P(S|t1, t2,…tn)时做了统计独立的假定,实际上,并不一定独立。 问题:有一个概率分量是0,则结果就是0,还存在分母为0的情况。 例2-4续: 当新到邮件含有“功律”时,提取字串“功”和“律”,查询ht_spam可得: P(S|功)=1 P(S|律)=0 则该邮件为垃圾邮件的可能性为: P=(0*1)/[0*1+(1-0)*(1-1)]=0。 * 垃圾邮件概率表(ht_spam)中的值计算公式为:p=p1l2/p1l2+p2l1,没有了中间步骤的舍入误差,精度较高。 实际应用中,总是采用分词方法提取词的字串,而不是单个的字。 * Abraham de Moivre(1667-1754)是法籍英国数学家,早年为法国加尔文派教徒,新旧教派之争受迫害,1685年弃法赴英当家教(给贝叶斯当家教)、做保险顾问,并与牛顿、哈雷结为为友。主要贡献是概率论,1711年写成《抽签的计量》一文,1718年修改扩充为《机会论》(The Doctrine of Chances),这是概率论较早的专著之一。容斥原理的全非公式、二项分布、正态分布、Stirling公式都是他提出的。1697年当选英国皇家学会会员,87岁时患嗜睡症,每天睡20多个小时,那可真是“眼睛一闭,一睁,一天儿就过去了”。他曾预言自己的死亡日期,准确应验(他发现每天比前一天多睡15分钟,利用等差数列预测睡觉时间等于24小时的日期即可,眼睛一闭,没睁,这一辈子就过去了。) 每次约有100名乘客,如飞机一旦失事,每位乘客赔偿40万人民币,共计4000万元, 一次飞行中飞机失事的概率为P=0.00005, 故赔偿的概率0.00005=2000元, 故至少应该收取保险费每人 2000÷100=20元. Stigler名字由来法则的另一个例子:哈雷彗星是中国人首次发现的,哈雷只是在1682年观测后计算出了公转周期为76年。中国人对哈雷彗星的记载,最早可上溯到殷商时代。“武王伐纣,东面而迎岁,至汜而水,至共头而坠。彗星出,而授殷人其柄。时有彗星,柄在东方,可以扫西人也!”(《淮南子·兵略训》)据张钰哲推算,这是公元前1057年的哈雷彗星回归的记录。更为确切的哈雷彗星记录是公元前613年(春秋鲁文公十四年)的“秋七月,有星孛入于北斗。”(《春秋左传·鲁文公十四年》)这是世界第一次关于哈雷彗星的确切记录。从公元前240年(战国秦始皇七年)起,哈雷彗星每次回归,中国均有记录。 对哈雷彗星的记录有时是很详细的。其中最详细的记录,是公元前12年(汉元延元年)“七月辛未,有星孛于东井,践五诸侯,出何戍北率行轩辕、太微,后日六度有余,晨出东方。十三日,夕见西方,犯次妃,长秋,斗,填,蜂炎冉贯紫宫中。大火当后,达天河,除于妃后之域。南逝度犯大角、摄提。至天市而按节徐行,炎入市中,旬而后西去;五十六日与苍龙俱伏。”(《汉书·五行志》)中国古代彗星记录较精确可靠。 * 可以用分界面的位置不同,来解释不同分类规则产生的分类结果。 * 特征向量为多维时,涉及到错误率的计算涉及到多重积分,很麻烦! 实际中经常采用以下简化的方法,如:在某些特殊情况下(正态分布且等协方差阵、独立随机变量)才做理论计算,仅计算错误率上界,或通过实验估计等。 * 如果贝叶斯决策的两个先决条件均已知,模式识别真就这么简单,而且错误率最小。 但是,先验概率和类条件概率密度一般情况下很难知道,那该怎么办?可以估计! 贝叶斯分类器设计(两类) 特征向量 d(x) 判别计算 分类决策 d(x) =d1(x)- d2(x) ? 阈值单元 +1 -1 应用:垃圾邮件过滤 垃圾邮件分类器设计 提取字串形成垃圾邮件和正常邮件两个字串集,统计字频,生成哈希表ht1和ht2 计算各字串集中每个字串出现的概率 Pk(ti) = (字频) / (对应哈希表长度) 计算邮件中出现某字串时是垃圾邮件的概率P(S|ti)= P1(ti)/[P1(ti)+P2(ti)],生成哈希表ht_spam 应用:垃圾邮件过滤

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档