也谈统计建模中因果关系20121112.pptx

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
也谈统计建模中因果关系20121112

也谈统计建模中的因果关系;因果与相关的几个例子 研究因果关系的方式:实验研究与观测研究 统计学关于因果推断的统计方法 列联分析 基于相关的回归 横截面回归 时间序列分析 面板数据分析 路径分析 结构方程模型 ;因果关系 在控制其他因素不变的条件下,作为原因的变量通过某种机制影响作为结果的变量。 相关关系 一个变量的变化伴随着另一个变量的变化,这两个变量表现为相关关系。可以用相关系数衡量。 简单相关、偏相关和复相关 ;小学生的阅读能力与鞋子的尺寸大小相关 甲与乙两人手表的时间高度相关;打太极拳与身体健康---因果 铀影响身体健康---因果 吸烟与肺癌发生率---因果 ;“观察与实验的区别在于观察向我们提供的知识似乎是自己呈现出来的;而实验向我们提供的知识则是为了知道事实是否如此而进行某种试探的果实。”(Zimmermann,论医学上的实验, 1774) “观察是一种用于搜集事实的研究方法,而实验则是一种获得知识的手段。”(Bernard,实验医学研究导论,1920) ;Holland(1986)指出:如果没有不可检验的假定的话,因果推断是不可能的。 如果不进行随机化实验,或者没有检验不可证伪的假定的话,就不可能由数据的统计分析得出因果结论。 ;随机化实验是评估因果作用的最好的科学方法。 但许多研究是禁止使用随机化实验,甚至禁止使用实验方法,而仅能进行观测研究。 例子 关于吸烟与肺癌的流行病研究。 开车时打手机是否增加事故发生率? 在不能应用随机实验的情况下,对照研究试图寻找一个与处理组可以比较的对照组,进行因果推断的实验研究。只是处理不同,而其他方面相近的样本组成研究对象。 ;同一时期内不同个体特征的样本数据集,该样本一般通过随机抽样获得。 对于检验微观经济假设和评价经济政策,给定时点上个人、家庭、企业、城市的数据都至关重要。 观测值排序没有意义 数据结构 年龄 受教育程度 工资水平 工作经历 Case1 Case2 Case3 ……… ;时间序列数据特征 不同时期同一个体特征(1个或多个变量)观测形成的数据集 时间是重要维度,观测值按时间的排序有意义。 时间的一个特征是数据频率:年、月、季、周、日、时 关键特征之一:经济数据的观测值与时间相关 时间序列数据建模不同于标准的计量经济建模 时序上的相依性 时序上的趋势性与季节性、持续性与动态性 数据结构 产出量 投资 消费水平 收入 1978 1979 1980 …….. ;将横截面数据和时间序列数据混合后构成的数据集。 例如,每隔5年进行的家庭随机抽样调查—调查问题一致。 2000年获得500个样本 2005年获得400个样本 2010年获得450个样本 混合后的样本有1350个样本,都是随机样本,抽取的家庭一般不同,偶然相同。可以增大样本容量,可以对某一关键因素进行对比分析。 一般用于政策分析或评估。可在政策实施前后分别抽样获得这类数据。;将不同个体在不同时间上的特点收集而成的数据集。 该数据集的主要特点 同一横截面的中每个个体都被跟踪了一段时间---不同于混合横截面数据 同一单位不同时期重复观测,数据采集难度较大。 这类数据使用的优越性 对同一单位进行重复观测,能控制单位本身具有但又不能观测的特征; 可对决策行为与结果滞后之间的关系进行因果推断 ;列联表-----定性数据 基于相关的回归模型 路径分析 结构方程模型 ;皮尔逊(K.Person, 1911)论述了因果与列联 (Contingency)的关系,并指出:两个事物之间根本的科学描述总能归结于一个列联表。 一旦认识了一个列联表的性质,他将掌握了原因与结果之间关联概念的本质,以及因果关系中这个本质的理想的极限性质。 ;Pearl(2000)和Glymour(2001)在研究两个变量X和Y之间的因素关系时,比如吸烟X与是否患癌症Y,由X与Y的列联表仅能反映它们的关联性,而不能确定它们是否有因果关系。 ; 由两个以上的变量进行交叉分类的频数分布表 利用卡方检验两个变量是否相互关联,如果不相关则独立----被称为卡方的独立性检验。 零假设:两个变量之间没有关系。;介绍一下1957~1958年流行病学者Doll和Hill与统计学者Fisher之间发生的关于吸烟与肺癌的争论,详细内容参见Cook(1980)。 ;Doll和Hill在1948~1949年间根据伦敦的20所医院关于吸烟与肺癌的病例对照研究发现男性和女性中吸烟与肺癌都有显著的关联(见表1) 提出是吸烟导致肺癌的危险因素的结论。 ;将表1中吸烟人按照吸烟方式分类得到表2关于吸烟方式与肺癌的列联表,可以看出吸入方式比非吸入方式患肺癌的比率显著下降。 Fisher对吸入式吸烟方式

您可能关注的文档

文档评论(0)

shaoye348 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档