- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学了贝叶斯,不再被噎死.PDF
学了贝叶斯,不再被噎死
胡一鸣
May30,2013
虽然知道一个公式吓走一半读者,但是这篇文章讲的就是贝叶斯统计,必然就
要涉及到一些公式。为了让那些被吓走的读者在点击关闭键以前不会发出‘尼玛
手贱’之感,先来轻松一下吧。
世界上有三种天文学家,一种会计数,还有一种不会。
数量级对了没?对了就没问题了,天文学上来说。
一部《红楼梦》,经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排
满,流言家看见宫闱秘事,天文学家看见线性相关。
一个天文学家,一个物理学家和一个数学家坐在苏格兰的火车上,看到车窗外
有一只黑色的羊,天文学家马上惊呼,啊我知道了,苏格兰的羊都是黑色的!物
理学家沉思了一会,反驳说,不,正确的说法是,苏格兰的羊起码有一只是黑色
的。这时数学家幽幽地说了句,你们啊too simple,正确的说法应该是,苏格兰的
羊起码有一只其中有一面是黑色的。
……
为什么天文学家满足于简单的线性相关?多加几个参数完全可以把数据拟合
的更棒,误差更小,为什么不这么做呢?面对这样的问题,你是否有一种‘被噎
死’的感觉?
好了,亲爱的一半的读者,你们可以ctrl+w了。
首先,定义 是事件发生的概率, 是指在事件发生的前提下事
件发生的概率,再定义 是 两事件同时发生的概率。那么我们不难得
到 。由于与的等价性,我们也可以写出
1
。现在把两个公式一起写出来,我们就可以得到
这个公式看起来相当简单,记得大三时上天文数据处理的课程,在第一章的最后
给出了这么一个看起来完全没有必要证明的公式,老师反复念叨这个式子在统计
学里有非常重要的意义,叫贝叶斯定理,我却不以为然,这个式子太简单了,何
堪大用?
之后,在图书馆闲逛,在统计学那部分看到有几本书,厚厚的几本,赫然写着
贝叶斯。当时还在上天文数据处理,于是不由在回忆一遍贝叶斯公式以后心生嘀
咕,这么简单的公式,要写成这么厚的几本书,写书的人该有多蛋疼?
再之后,读过不少杂七杂八的文章[1],了解到在计算机方面,贝叶斯有着及其
重要的应用,比如我打这篇文章,电脑会给我自动修正拼音中的错误,就完全是
贝叶斯的功劳,甚至据说人类大脑的工作机理都是贝叶斯的(特别声明,这篇文
章的所有文字错误都是我的错,和贝叶斯没有关系)。
也许,贝叶斯确实很牛,确实很重要,不过和我一个学天文的有关系么?
答案是,有。把上面的那个式子中的B换成 ,换个名字叫参数,A换成 ,叫
做数据,
,这就是我每天要面对的东西了。我们不妨看看这个式子的物理意义,我有一堆数
据,不妨假设是恒星光谱;我还有数据背后的物理模型,不妨假设是黑体辐射。
这个模型可以给出是关于某些参数的函数,最简单的参数就是温度。于是贝叶斯
公式就告诉我们,当我们有一个光谱,想要知道这颗恒星的温度,我们就可以把
这个问题变换成给定温度下,得到我们手里这样的光谱的可能性,乘以“先验概
率”再除以“证据”。在只考虑真空中的球形鸡的情况下,先验概率可以看成是均
匀分布的函数,而证据是一个与参数无关的归一化系数,于是验后概率 就
正比于似然值 。
回到天文学家只会线性相关的问题。冯诺依曼曾经说过,“With four parame-
ters I can fit an elephant, and with five I can make him wiggle his trunk”[2]。直
觉告诉我们,参数越多的模型越是糟糕,你看,同样是恒星光谱,假设我们手里
的数据包含1024个点,我完全可以抛开黑体辐射,使用一个1024阶的多项式拟合:
嘿嘿,你看,我的模型里面没有误差哦!我想,正常人都不会相信这样一个
文档评论(0)