说人话的统计学.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PART 1 你真的懂P值吗 P值是什么? p值是在假定原假设为真时,得到与样本相同或者更极端的结果的概率。 (抛5次钢镚为例)/P值也就是统计显著性 P值不是什么? p值不是原假设为真的概率,也不是备选假设为假的概率 对于任何一个假设,它为真的概率都是固定的。然而p值是根据具体的样本数据计算得出的,同样的实验重复做几次,每次得到不同的样本,p值也自然会有区别。 p值只描述样本与原假设的相悖程度,原假设的真与假是我们以此为根据做出的一个判断。 p值并不能代表你所发现的效应(或差异)的大小 因此需要不能仅仅给出p值,还需要给出相应的效应大小(取决于具体的测试,比如均值的差、回归系数、OR值等)及其置信区间,这样才能使读者更全面、准确地评估研究发现的意义 做统计,多少数据才算够 第一类错误 ?:在原假设其实为真时错误地拒绝了它 第二类错误 β:在原假设其实为假时错误地接受了它 统计功效 1-β:如果我们感兴趣的效应或差异的确存在,在给定的显著性水平的规定下,我们能够正确地拒绝原假设的概率。常规定于0.8-0.9 统计功效的影响因素(1-β): 找东西为例:效应的大小(即故事中被寻找的东西的大小);数据或样本量的多少(即故事中格格巫找东西的时间);数据中包含的「噪音」水平(即故事中宿舍有多乱)。 统计功效(1-β)由以下因素决定:标准化的效应大小(ES);样本量(N);显著性水平(?) 【四个量只要知道其中任意三个,就能求出剩下的一个】 效应大小→猜!→ ①试点研究 ②旁敲侧击 利用G*Power进行统计功效分析获得所需样本量 提升统计功效,让评审心服口服! 增加数据量 1.1增加比较容易获得的组别的样本量(经验法则:如果其中一组的样本量已经达到另外一组的两倍,再继续增加第一组的样本也起不了太多作用了) 1.2尽可能减少数据的损失 2. 放宽显著性水平的要求 (极个别例子) 2.1报告p值在0.05和0.1之间的结果(数据过硬,具有潜在突破的研究) 2.2使用单侧检验(必须有很强的理论基础,能够支持我们对效应方向的假设,而且这一决策必须在分析数据前做出) 3. 增强效应大小(效果量) 3.1 加大干预强度 3.2 对极端群体作比较(连续变量的自变量可采取“取两头弃中间”的方法) 3.3 引进控制变量 (排除无关噪音的影响) 3.4 采用重复测量或组内设计(在同一组分别实施干预与对照排除个体随机噪音) 你的科研成果都是真的吗? 探讨统计学的技术问题 见识数据分析的「独孤九剑」 贝叶斯定理: 后验概率: P(现象|假说) → “似然”(likelihood) P(假说) →“先验概率”(prior probability) P(现象) →“证据”(evidence) PART 2 数据到手了,第一件事先干啥? 探索性数据分析”(exploratory data analysis)/ “预处理”(pre-processing): 发现数据中可能存在的错误和遗漏。 掌握数据的基本情况,获得进一步分析的灵感。 检查我们想要执行的统计检验的假设是否成立。 数据分类: 离散型数据(discrete data):有序变量(ordinal variable)和名义变量(nominal variable) 连续型数据(continuous data) 离散型数据 → 频数(或频率)表 连续型数据 → 集中趋势(算术平均数、中位数..) 发散程度(方差、标准差、四分位点、四分位差) 箱线图和频率直方图 神秘奥妙的正态分布 PART 3 t检验:两组平均数的比较 想玩转t检验?你得从这一篇看起 一种可能的思路是,根据样本均值与标准值的差距、样本均值的波动范围算出两者的比值,然后用这个比值的大小来做判断是否有差异性。 数学上可以证明,如果样本大小为N,样本平均值的波动(标准差)等于总体波动(标准差)除以根号N。 可以看作是标准化了的样本与总体均值的差距,称为检验统计量 (test statistic) 样本平均值服从正态分布N( μ0, σ/根号N) z服从标准正态分布 将样本标准差记为S,用S代替σ可以得到一个新的检验统计量 在总体服从正态分布的前提下,t会服从另外一种分布,称为学生t分布。根据t分布的性质,我们同样可以算出t取不同数值时对应的p值是多少,从而对原假设做出推断。 就是要实用!t 检验的七十二变 单样本?t?检验 是将样本的平均值与某个特定的标准值相比较,称为「单样本 t 检验」(one sample t test) 「特定的标准值」: 即某个人为规定的、需要达到的标准;由大样本所决定的某些参考值或「正常值」 成对样本的?t?检验 比较两个平均值的差别,两个样本中的每个数据点都是一一对应的【成对样本的 t 检验

文档评论(0)

kbook + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档