两则趣味贝叶斯统计的案例.ppt

两则趣味贝叶斯统计的案例.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
两则趣味贝叶斯统计案例 趣味案例 在1787到1788年,也就是纽约州带头鼓动通过 新的美国宪法期间,美国第四任总统詹姆士·麦迪 逊和开国政治家亚历山大·汉密尔顿都写了许多文 章支持通过宪法。但这些文章都是以署名“联 邦 主义者”匿名发表的。19世纪初,麦迪逊和汉密 尔顿两人开始确认各自的著作,但其中有12篇 直颇具争议,就像笼罩着一层面纱,无法以真 面目示人。那么如何用统计方法进行分析和识别 呢? 类似于《红楼梦》某些章节作者考证中的曹雪芹和高 鹗之争,我们当然可以用多元统计分析中的聚类分析 进行论证,但在当时,聚类方法还没有得到很好的发 展。而且麦迪逊和汉密尔顿在已有著作中的平均句长 几乎完全相同,这使得这一能反映写作风格特征的数 据失效了。直到1964年,美国统计学家莫斯特勒和华 莱士转而从用词习惯上来找出这两位作者的有区别性 的风格特征,运用贝叶斯定理判定了《联邦主义论文 集》中这些署名有争议的文章的作者。 他们找出了几百个无“特定内容”的英文单词,如“if”、 “ while”、“ because “over upon “ whilst as 等。这些单词在句子里只有语法上的意 义,本身并没有什么特定的含义,其使用主要取决于作者的语 言习惯。对这两位作者的其他已有确定性著作进行统计分析, 结果发现大约有30个虚词的使用频率是不同的。例如,汉密尔 顿在他已有的18篇文章中,有14篇使用了“ enough”一词;而 麦迪逊在他的14篇文章中根本未使用“ enough”。汉密尔顿 喜欢用“ while”,而麦迪逊总是用“ whilst”。麦迪逊使用 “upon”这个词的频率是每千字平均0.23次,而汉密尔顿对这 个词的使用频率非常高,每千字平均3.24次。在12篇署名有争 议的文章里,有11篇根本没有用“upon”这个词,而在剩下的 那一篇文章中,平均每千字出现1.1次 需要解决的问题是:这些文章中用词的分布形态,是来自与麦 迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分 布?这些分布各有各的参数,只根据他们的论文来估计参数 值,可能是错误的,参数的确切值应当来自于描述18世纪晩期 所有北美洲有教养的人用英文写作时用字习惯的参数分布。如 此一来,制约麦迪逊和汉密尔顿使用这些虚词的参数本身也有 参数,称之为“超参数”。由于英语语言总是随着时间和地域 的变化而变化,除了用18世纪的北美作品,还可以搜集其他地 区和其他时期的英语文献,来估计这些超参数的参数,称之为 “超参数一超参数”。通过重复使用贝叶斯定理,就能决定这 些参数的分布,结果发现那位署名“联邦主义者”的作者的真 正身份是美国第四任总统麦迪逊。这样就了结了这一考据学上 长期悬而未决的公案。两位统计学家所使用的贝叶斯方法也得 到了学术界的好评。 趣味案例二 1981年3月30日,一个大学退学学生 hinckley企图对里 根总统行刺。他打伤了里根、里根的新闻秘书以及两 个保安人员。在1982年审判他时, Hinckley以精神病 为理由作为其无罪的辩护。在18个医师中作证的医师 是 Daniel r. Weinberger,他告诉法院当给被诊断为精 神分裂症的人以CAT扫描(计算机辅助层析扫描)时, 扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描 时,只有2%的扫描显示脑菱缩。 Hinckley的辩护律师 试图拿 Hinckley的CAT扫描结果为证据,争辩说因为 Hinckley的扫描展示了脑萎缩,他极有可能患有精神 病,从而免予受到法院的起诉

文档评论(0)

130****9768 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档