行为科学的统计框架-ofXiaoxuLI.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
行为科学的统计框架-ofXiaoxuLI.ppt

缺失数据结构方程模型的三层分析 数据呈现、模型拟合与参数效应量 李 晓煦 lixiaoxu@ 20JUN2008, 17:00 北京大学 深圳研究生院 C103 行为科学定量方法的实践起点:抽样 Non-ignorable Missing (MNAR) ≈ Convenient Sample Missing Completely at Random (MCAR)的特点: 任意组缺失模式下的完整观测变量样本都可以代表被研究的总体 观测到的分布图示与总体分布族假定吻合 Little(1988)提出多组均值的MCAR检验,Enders(2006)提供了SAS下的代码 Missing at Random (MAR) 的框架 MAR特点: 是从全信息最大似然方法(FIML)逆推出来的理论条件;并非真实数据常见特性,而是模型所期待的特性。 基本的逻辑:如果真实世界不是这样的,就不能被适宜认知地呈现(Simon,1996, p. 207) 虽然代数表达式简洁,但因为影响缺失率的函数形式是开放的,无法检验,无从图示; 实际中常见的情形是单调缺失,影响缺失率的函数形式限于很简单的情形(分段常数函数或者线性函数,或者已知而确定的函数)。 抽样遇到的其他瑕疵 异常值 多元异常值mahalanobis距离,其平方与对应自由度卡方分布的分位值比较。 异常值(比如大于2000毫秒的反应时)虽然是被观测的总体,但通常不是被研究的总体;而地震灾害领域,异常值才是研究的重点,正常值反而不是。 离散值 图来自Wilkinson TFSI(1999) 正态分布及其均值、方差、偏度、峰度 由中心极限定理得到: 样本不太小时,其平均值只有均值和(协)方差有研究意义 从正态分布数据到协方差矩阵(与均值向量)之间没有信息损失 Anscombe(1973)的经典案例指出真实数据到协方差矩阵的信息损失 Wilkinson TFSI(1999)指出研究者必须以图示来呈现充足的信息 目前EFA与PCA软件多数能输出因子散点图,但SEM软件却只输出协方差的残差图,而不是样本残差图或者因子散点图。SEM应用者对数据与协方差之间的差距缺乏基本的警觉。 缺失模式内的观测值呈现正态分布,是MCAR的重要表征 被观测总体能否推测被研究总体的均值与协方差? Tobit模型能,虽然它是典型的MNAR 普通的MNAR,在知道总体分布类型时,也能推测均值与协方差的范围 十倍于自由参数的样本量 如果用四阶矩的模型,需要的样本量非常大,使得高阶矩的估计失去意义 测量项目的打包策略(Hau Marsh, 2004) 一维数据图示:Glivenko-Cantelli 定理与QQ图 没有唯一的直方图,有唯一的经验分布图 直方图损失信息,经验分布图保全信息 分布函数图与QQ图一一对应(横轴纵轴对换,横轴再做尺度的变换),正态分布对应到直线 经验分布一致收敛到总体分布?正态分布的QQ图收敛到直线 可用统计检验拒绝分布假设;尚无支持分布假设的统计量 实际应用中,用偏度和峰度来支持正态假设,默认为4阶以上的矩(涉及四次方以上的函数表达式期望值)都没有研究意义 二维数据图示:LOESS曲线 缺失值影响的二维图示 均值 方差 相关系数 回归系数 行为科学定量方法基本范式:H0与p值 普通的模型对于“正确的”SEM可作参数的Wald检验(实际传统为报告均值、标准误,由置信区间直接解读其意义) H0: LX11=c H1: LX11 c; (或 H0: LX11=-c H1: LX11 -c; 或 H0: |LX11|=c H1: |LX11| c; 或 H0: |LX11|=c H1: |LX11| c;) 对任何给定真实数据,c与p有单调关系 (Li, Hau, Marsh, 2006) FIML与ML对于“正确的”SEM可作同样的Wald检验 “正确的”SEM:总体恰好拟合模型,RMSEA总体值为0。 H0的位置(和H1相对H0的方向)决定了p值,H1定量偏移无影响 c-p关系对应于置信区间与置信度的关系 教科书传统的例子为H0: LX11=0,实际应用中有不良影响 两层分析:数据呈现与效应量置信区间 两组均值的z检验 同方差两组均值的t检验 异方差两组均值的t检验 非参数的中值检验 通常的方法:调整数据以适应模型 (可能是探索性地)向正态分布变换 相关系数的变换公式 1/2 * log[(1+r)/(1-r)],方差为1/(N-3) 筛除高影响样本 对离散值分组建模或者引入哑变量 列删 缺失数据下的推荐方法:发展模型充分利用数据 FIML / EM EM能快速给出协方差、均值的点估计 MI 三个步骤:先抽样,再逐一建模,再整合结果 Tobit

您可能关注的文档

文档评论(0)

wendang_12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档