说人话的统计学.docxVIP

下载本文档

38
0
约1.22万字
约 15页
2019-01-09 发布于广东
举报
版权申诉

说人话的统计学.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PART 1 你真的懂P值吗 P值是什么？ p值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。（抛5次钢镚为例）/P值也就是统计显著性 P值不是什么？ p值不是原假设为真的概率，也不是备选假设为假的概率对于任何一个假设，它为真的概率都是固定的。然而p值是根据具体的样本数据计算得出的，同样的实验重复做几次，每次得到不同的样本，p值也自然会有区别。 p值只描述样本与原假设的相悖程度，原假设的真与假是我们以此为根据做出的一个判断。 p值并不能代表你所发现的效应（或差异）的大小因此需要不能仅仅给出p值，还需要给出相应的效应大小（取决于具体的测试，比如均值的差、回归系数、OR值等）及其置信区间，这样才能使读者更全面、准确地评估研究发现的意义做统计，多少数据才算够第一类错误 ?：在原假设其实为真时错误地拒绝了它第二类错误 β：在原假设其实为假时错误地接受了它统计功效 1-β：如果我们感兴趣的效应或差异的确存在，在给定的显著性水平的规定下，我们能够正确地拒绝原假设的概率。常规定于0.8-0.9 统计功效的影响因素（1-β）：找东西为例：效应的大小（即故事中被寻找的东西的大小）；数据或样本量的多少（即故事中格格巫找东西的时间）;数据中包含的「噪音」水平（即故事中宿舍有多乱）。统计功效（1-β）由以下因素决定：标准化的效应大小（ES）；样本量（N）；显著性水平（?) 【四个量只要知道其中任意三个，就能求出剩下的一个】效应大小→猜！→ ①试点研究 ②旁敲侧击利用G*Power进行统计功效分析获得所需样本量提升统计功效，让评审心服口服！增加数据量 1.1增加比较容易获得的组别的样本量（经验法则：如果其中一组的样本量已经达到另外一组的两倍，再继续增加第一组的样本也起不了太多作用了） 1.2尽可能减少数据的损失 2. 放宽显著性水平的要求 (极个别例子) 2.1报告p值在0.05和0.1之间的结果（数据过硬，具有潜在突破的研究） 2.2使用单侧检验（必须有很强的理论基础，能够支持我们对效应方向的假设，而且这一决策必须在分析数据前做出） 3. 增强效应大小（效果量） 3.1 加大干预强度 3.2 对极端群体作比较（连续变量的自变量可采取“取两头弃中间”的方法） 3.3 引进控制变量 (排除无关噪音的影响) 3.4 采用重复测量或组内设计（在同一组分别实施干预与对照排除个体随机噪音）你的科研成果都是真的吗？探讨统计学的技术问题见识数据分析的「独孤九剑」贝叶斯定理：后验概率： P(现象|假说) → “似然”(likelihood) P(假说) →“先验概率”(prior probability) P(现象) →“证据”(evidence) PART 2 数据到手了，第一件事先干啥？探索性数据分析”(exploratory data analysis)/ “预处理”(pre-processing)：发现数据中可能存在的错误和遗漏。掌握数据的基本情况，获得进一步分析的灵感。检查我们想要执行的统计检验的假设是否成立。数据分类：离散型数据(discrete data)：有序变量(ordinal variable)和名义变量(nominal variable) 连续型数据(continuous data) 离散型数据 → 频数（或频率）表连续型数据 → 集中趋势(算术平均数、中位数..) 发散程度（方差、标准差、四分位点、四分位差）箱线图和频率直方图神秘奥妙的正态分布 PART 3 t检验：两组平均数的比较想玩转t检验？你得从这一篇看起一种可能的思路是，根据样本均值与标准值的差距、样本均值的波动范围算出两者的比值，然后用这个比值的大小来做判断是否有差异性。数学上可以证明，如果样本大小为N，样本平均值的波动（标准差）等于总体波动（标准差）除以根号N。可以看作是标准化了的样本与总体均值的差距，称为检验统计量 (test statistic) 样本平均值服从正态分布N( μ0, σ/根号N) z服从标准正态分布将样本标准差记为S，用S代替σ可以得到一个新的检验统计量在总体服从正态分布的前提下，t会服从另外一种分布，称为学生t分布。根据t分布的性质，我们同样可以算出t取不同数值时对应的p值是多少，从而对原假设做出推断。就是要实用！t 检验的七十二变单样本?t?检验是将样本的平均值与某个特定的标准值相比较，称为「单样本 t 检验」（one sample t test）「特定的标准值」: 即某个人为规定的、需要达到的标准；由大样本所决定的某些参考值或「正常值」成对样本的?t?检验比较两个平均值的差别，两个样本中的每个数据点都是一一对应的【成对样本的 t 检验