「深度推荐」玩转贝叶斯分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
「深度推荐」玩转贝叶斯分析 PAGE 1 「深度推荐」玩转贝叶斯分析 开头先开个玩笑, 有人说“信贝爷, 得永生” 你是否理解此中真意? 贝叶斯分析是整个机器学习的基础框架, 它的思想之深刻远出一般人所认知的, 我们这里要从贝叶斯统计说起。 贝叶斯统计 首先谈概率,概率这件事大家都觉得自己很熟悉, 叫你说概率的定义 , 你却不一定说的出,我们中学课本里说概率这个东西表述是一件事发生的频率, 或者说这叫做客观概率。 而贝叶斯框架下的概率理论确从另一个角度给我们展开了答案, 他说概率是我们个人的一个主观概念, 表明我们对某个事物发生的相信程度。 如同 Pierre Lapalace 说的: Probability theory is nothing but common sense reduced to calculation.  这正是贝叶斯流派的核心,换句话说,它解决的是来自外部的信息与我们大脑内信念的交互关系。 两种对于概率的解读区别了频率流派和贝叶斯流派。如果你不理解主观概率就无法理解贝叶斯定律的核心思想。 我们来看一下贝叶斯统计的一个有趣的案例案例:假如你是一个女生, 你在你的老公书包里发现了一个别的女人的内裤那么他出轨的概率是多少。 稍微熟悉这个问题的人对会知道做这个题目你要先考察基率,你要把这个问题分解为几步考虑: 你老公在没有任何概率情况下出轨的概率是多少? 如果他是个天生老实巴交的程序员或者风流倜傥的 CEO , 那么显然不该一视同仁 如果你老公出轨了, 那么他有一条内裤的概率是多少, 如果他没出轨, 出现这个情况概率有多少?  想想一般人即使出轨也不会犯那么傻的错误, 会不会有没出轨而出现内裤的状况? 有没有可能是某个暗恋你老公的人的陷害? 根据1 和2求解最终问题,这才是拥有大学数学能力的你该做的分析。 在这里1其实就是先验概率 P(A),而2是条件概率 P(B|A), 最终得到3后验概率 P(A|B)。这三种即是贝叶斯统计的三要素。 基于条件概率的贝叶斯定律数学方程极为简单: A 即出轨, B 是内裤出现, 你得到1、2,就可以根据公式算出根据根据内裤出现判断出轨的概率。 先验概率在贝叶斯统计中具有重要意义,首先先验概率即我们在取得证据之前所指定的概率 P(A), 这个值通常是根据我们之前的常识,带有一定的主观色彩。 就像刚刚说的出轨的问题, 你的先验概率代表了你对你男人的信心。 有一个非常有趣的现象是如果我们的先验概率审定为1或0(即肯定或否定某件事发生), 那么无论我们如何增加证据你也依然得到同样的条件概率(此时 P(A)=0 或 1 , P(A|B)= 0或1) 这告诉我们的第一个经验就是不要过早的下论断, 下了论断你的预测也就无法进化了, 或者可以称之为信仰。 你如果想让你的认知进步,就要给各种假设留一点空间。 贝叶斯分析 贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。 贝叶斯分析中的三要素(即刚讲的贝叶斯统计三要素)在不同的问题中通常侧重点 , 很多时候我们都是在忽略先验概率的作用,比如描述一个人很书呆子气让你判断他是大学老师还是销售员的经典案例(要看先验大学老师还是销售员哪个多啊)。 但是有时候我们也不理解条件概率, 比如著名的辛普森案, 为了证明辛普森有杀妻之罪,检方说辛普森之前家暴,而辩护律师说,美国有400万女性被丈夫或男友打过,而其中只有1432人被杀,概率是2800分之一。 这其实就是勿用了后验概率, 这里的条件是被杀而且有家暴,而要推测的事件是凶手是男友(事实上概率高达90%),这才是贝叶斯分析的正当用法, 而辩护律师却把完全在混淆条件与要验证的假设。 图: 贝叶斯分析法庭也用的上哦! 理解贝叶斯分析最好的方法即图像法, 这里的 A 的面积即先验, 后验是阴影占蓝圈的百分比。 贝叶斯分析可以瞬间理解一些常用的理论, 如幸存者偏差,你发现一些没读过书的人很有钱,事实上是你发现就已经是幸存者了(对应上图中小红圈), 而死了的人(红圈外的大部分面积)你都没见到啊。还有阴谋论, 阴谋论的特点是条件很多很复杂, 但是条件一旦成立,结论几乎成立,  你一旦考虑了先验,这些条件成立本身即很困难, 阴谋论不攻自克。 注: 图上红圈和篮圈的面积, 很少我们在开始就知道, 这才是应用中的难点。 此处贝叶斯分析的框架也在教我们如何处理特例与一般常识的规律。如果你太注重特例(即完全不看先验概率) 很有可能会误把噪声看做信号, 而

您可能关注的文档

文档评论(0)

al + 关注
实名认证
文档贡献者

al

1亿VIP精品文档

相关文档