DataAnalysisandUncertainty.pptVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DataAnalysisandUncertainty.ppt

* 老年组治愈率低,青年组高,青年A、老年B支配了汇总数据 * * 样本:观察到的数据。模型给出各种数据产生的概率,统计推理从样本数据中得到模型。 * 先阅读PP67(最后一节)~68。后阅读P69的4.5.1节~P70第一行。 * E[(?^-E[?^] )]=0 * (log ?)’=1/ ?, r-r?=1000?-r?, r=1000? * e的意义:y值应在a+bx附近随机摆动。 * 同底因子相乘=各因子的指数相加。 * ?=?=0时即MLE,实践中常用(r+1)/(n+2)(即具有?=?=1的Beta先验值的估计)估计概率以避免因样本关系出现0或1的极端值。后验概率的期望值是样本数据中买牛奶的人数(x=1的个数)/总人数,即二项分布中?的指数/两个指数的和(其中的1忽略?) Chapter 4: Data Analysis and Uncertainty 简介 处理不确定性 随机变量和它们的关系 样本和统计推理 估计 假设检验 采样方法 简介 不确定性无处不在 处理不确定性的工具 概率理论 可能性理论 粗集理论 基本工具是概率 “ 生活中最重要的问题 , 其中绝大多数在实质上只是概率的问题.” —— Laplace 保险公司的保险条款的依据? 简介 内容 有关概念 概率计算与概率解释(4.2) 频率论和主观法(4.2) 随机变量(4.3) 如何使用概率理论建立统计模型 样本(4.4) 估计:最大似然估计、贝叶斯估计(4.5) 假设质量的评价(4.6) 样本抽取(4.7) 不确定性的处理 不确定性 概率 可能性 偶然性 随机性 运气 意外 天数 上帝的反复无常 概率论与概率计算 概率论:对概率意义的理解与解释——有多少个思想家就有多少种对概率含义的不同观点 概率计算:根据普遍接受的公理从数学上探索一些随机量的计算方法——工程应用 不确定性的处理 什么是概率 频率论观点 (Frequentist View) 概率是一个客观概念? 概率定义为:在绝对一致的条件下重复某一行为时这个事件发生次数的比例极限 应用 可以用于预测理想化的重复模型 赌博:2个骰子掷4次出现6点的概率VS掷24次出现双6点的概率;三门问题 超市购物 不能预测一次性事件:奥运会比赛 引起不确定的原因? 主观概率观点 概率是一个主观概念?是个人的一种内心状态 概率定义为:人对一个特定事件能否发生的确信程度 Bayesian Statistics 基于主观概率论的数据分析理论和方法,是对各种形式的不确定性建模的一种灵活框架。 显式地刻画数据分析问题中所有形式的不确定性:参数、模型、其他预测 不确定性的处理 主观是客观的反映 不确定性的处理 近一个世纪 概率是一个客观概念 重复性事件 比例极限 十几年 概率是一个主观概念 多种事件 对事件的先验信心 1. 在很多情况下会得到大致相同的答案; 2. 二者结合:把拟合模型和模式的频率论方法实现为BAYES方法的一种特例。 频率论观点 VS 主观概率观点 随机变量和它们的关系 随机变量及其分布函数 多元随机变量 随机变量的独立性 随机变量的数学期望 随机变量和它们的关系 随机变量的独立性 离散型:随机变量X,Y是相互独立的, 当且仅当对X和Y的任何取值x、y均有p(x,y)=p(x)p(y) 连续型:f(x,y)=f(x)f(y) 例4.1 顾客数n:100,000 购A的人数nA:10,000 购B的人数nB:5,000 既购A又购B的人数nAB:500 5000 50 p(A)=0.1, p(B)=0.05, p(A,B)=0.005=p(A)p(B) 独立? p(A,B)=0.05p(A)p(B), p(B|A)=0.5 p(A|B)=1 p(A,B)=0.0005p(A)p(B), p(B|A)=0.005 p(A|B)=0.01 例4.2 Simpson paradox 治疗A 治疗B 老年组 2/10=20% 30/90=33% 青年组 48/90=53% 10/10=100% 总计 50/100=50% 40/100=40% 对于每一个年龄组,B的效果都好于A。但是对于整体A的效果好于B? 原因:合并两个有条件的结论时,样本大小的差异导致基于较大样本的比例支配了总比例。 随机变量和它们的关系 独立性在数据挖掘中的应用 一阶马尔科夫(First-Order Markov)属性:对于数据序列,只要给定序列中的当前值,那么序列中的下一个值经常是独立于序列中所有过去的值。 独立和条件独立的思想是数据分析中许多关键概念的核心。独立的假定使我们可以把多个变量的联合密度表示成密度的连乘,即:

文档评论(0)

000 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档