行为科学的统计框架-ofXiaoxuLI.pptVIP

下载本文档

19
0
约6.39千字
约 24页
2018-01-11 发布于天津
举报
版权申诉

行为科学的统计框架-ofXiaoxuLI.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

行为科学的统计框架-ofXiaoxuLI.ppt

缺失数据结构方程模型的三层分析数据呈现、模型拟合与参数效应量李晓煦 lixiaoxu@ 20JUN2008, 17:00 北京大学深圳研究生院 C103 行为科学定量方法的实践起点：抽样 Non-ignorable Missing (MNAR) ≈ Convenient Sample Missing Completely at Random (MCAR)的特点：任意组缺失模式下的完整观测变量样本都可以代表被研究的总体观测到的分布图示与总体分布族假定吻合 Little(1988)提出多组均值的MCAR检验，Enders(2006)提供了SAS下的代码 Missing at Random (MAR) 的框架 MAR特点：是从全信息最大似然方法(FIML)逆推出来的理论条件；并非真实数据常见特性，而是模型所期待的特性。基本的逻辑：如果真实世界不是这样的，就不能被适宜认知地呈现(Simon,1996, p. 207) 虽然代数表达式简洁，但因为影响缺失率的函数形式是开放的，无法检验，无从图示；实际中常见的情形是单调缺失，影响缺失率的函数形式限于很简单的情形(分段常数函数或者线性函数，或者已知而确定的函数)。抽样遇到的其他瑕疵异常值多元异常值mahalanobis距离，其平方与对应自由度卡方分布的分位值比较。异常值(比如大于2000毫秒的反应时)虽然是被观测的总体，但通常不是被研究的总体；而地震灾害领域，异常值才是研究的重点，正常值反而不是。离散值图来自Wilkinson TFSI(1999) 正态分布及其均值、方差、偏度、峰度由中心极限定理得到：样本不太小时，其平均值只有均值和(协)方差有研究意义从正态分布数据到协方差矩阵(与均值向量)之间没有信息损失 Anscombe(1973)的经典案例指出真实数据到协方差矩阵的信息损失 Wilkinson TFSI(1999)指出研究者必须以图示来呈现充足的信息目前EFA与PCA软件多数能输出因子散点图，但SEM软件却只输出协方差的残差图，而不是样本残差图或者因子散点图。SEM应用者对数据与协方差之间的差距缺乏基本的警觉。缺失模式内的观测值呈现正态分布，是MCAR的重要表征被观测总体能否推测被研究总体的均值与协方差？ Tobit模型能，虽然它是典型的MNAR 普通的MNAR，在知道总体分布类型时，也能推测均值与协方差的范围十倍于自由参数的样本量如果用四阶矩的模型，需要的样本量非常大，使得高阶矩的估计失去意义测量项目的打包策略(Hau Marsh, 2004) 一维数据图示：Glivenko-Cantelli 定理与QQ图没有唯一的直方图，有唯一的经验分布图直方图损失信息，经验分布图保全信息分布函数图与QQ图一一对应(横轴纵轴对换，横轴再做尺度的变换)，正态分布对应到直线经验分布一致收敛到总体分布?正态分布的QQ图收敛到直线可用统计检验拒绝分布假设；尚无支持分布假设的统计量实际应用中，用偏度和峰度来支持正态假设，默认为4阶以上的矩(涉及四次方以上的函数表达式期望值)都没有研究意义二维数据图示：LOESS曲线缺失值影响的二维图示均值方差相关系数回归系数行为科学定量方法基本范式：H0与p值普通的模型对于“正确的”SEM可作参数的Wald检验（实际传统为报告均值、标准误，由置信区间直接解读其意义） H0: LX11=c H1: LX11 c； (或 H0: LX11=-c H1: LX11 -c; 或 H0: |LX11|=c H1: |LX11| c; 或 H0: |LX11|=c H1: |LX11| c;) 对任何给定真实数据，c与p有单调关系 (Li, Hau, Marsh, 2006) FIML与ML对于“正确的”SEM可作同样的Wald检验 “正确的”SEM：总体恰好拟合模型，RMSEA总体值为0。 H0的位置(和H1相对H0的方向)决定了p值，H1定量偏移无影响 c-p关系对应于置信区间与置信度的关系教科书传统的例子为H0: LX11=0，实际应用中有不良影响两层分析：数据呈现与效应量置信区间两组均值的z检验同方差两组均值的t检验异方差两组均值的t检验非参数的中值检验通常的方法：调整数据以适应模型 (可能是探索性地)向正态分布变换相关系数的变换公式 1/2 * log[(1+r)/(1-r)]，方差为1/(N-3) 筛除高影响样本对离散值分组建模或者引入哑变量列删缺失数据下的推荐方法：发展模型充分利用数据 FIML / EM EM能快速给出协方差、均值的点估计 MI 三个步骤：先抽样，再逐一建模，再整合结果 Tobit