- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
lecture7社研-2016春.ppt
Fudan University Fudan University 社会研究方法 第7讲:社会统计2 统计分析:描述统计指的是描述数据的方法。推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。 * (三)多变量 3.1 统计控制 如果两个变量间有相关,并不能说自变量影响了因变量。研究者还必须去除其他的替代解释,那些会是假设关系变成虚假不实的解释。在非实验研究中,研究者通过统计方法对其他的替代解释进行控制。通过控制变量(control variable)来测量可能的替代解释,然后再用多变量表和统计来检查控制变量,协助它决定某个双变量的关系是否为虚假,也能显示各自变量对因变量影响的相对大小。 引进控制变量的方法有两个:三变量百分比表和多元回归分析 * 如何制作三变量表 * 阅读三变量表的系统:详析范式(elaboration paradigm) * * 多元回归Multiple regression analysis 什么是二元回归 假设我们有以下数据:父亲的受教育年限(fedu)和受访者的受教育年限(edu): * 如果我们在二维空间里画幅图来表示这两个变量,它们之间的关系就会呈现出来。在下图一我们就会发现,父亲的受教育年限长,受访者的受教育年限也会长。在这种情况下,我们说父亲的受教育年限和受访者的受教育年限呈正相关关系(positively correlated). * graph twoway scatter edu fedu 尽管能看出父亲的受教育年限和受访者的受教育年限呈正相关关系,但我们还想从两个方面来量化此关系。 其一,我们希望用一种方法来描述父亲的受教育年限与受访者的受教育年限之间的关系特征。 即,如果某人父亲的受教育年限变化(自变量)一个单位(一年),那么我们会预期他本人的受教育年限(因变量)平均会发生多大的变化?假如知道他父亲的受教育年限,那么我们对他本人的受教育年限又会做何种预期或预测? 其二,我们希望用一种方法来描述受访者的受教育年限与父亲的受教育年限之间的相关强度。 依据父亲的受教育年限来预测受访者的受教育年限,我们能得到一个准确的预测值还是只能得到一个近似值呢? * 描述两个变量关系特征的最简单且常见的方法是在散点图中画出一条通过这些点并最好的概括了两个变量之间平均关系的直线,直线可以用一个方程来表示: 图二给出了我们关于受访者受教育年限Y和父亲受教育年限X例子的系数a和b.该图对应的方程可表示为: ? 这里,3.38是截距,即那些父亲根本没有受过教育的受访者的期望受教育年限。0.687是斜率,即父亲受教育年限每增加一年,受访者受教育年限的期望增加值。根据这个方程,我们预测父亲受过10年教育的受访者将会有10.25年的受教育年限,因为3.38+10*0.687=10.25.类似的,我们预测受过大学教育的人的子女的受教育年限比只受过高中教育的人的子女的受教育年限平均多2.75年,因为0.687*(16-12)=2.75.在给定自变量取值的情况下估计因变量的值被称为对方程求值。 * * 在一组数据点中画出一条直线的标准是使预测误差的平方和最小 – 我们使观测值和预测值之间差异的平方和最小。用此方法得到的直线被称作为常规最小二乘回归线(ordinary least squares regression lines, OLS)。 模型预测的好坏或拟合优度(goodness of fit)的标准是看R-squared (确定系数/决定系数,coefficient of determination). R-squared是指因变量方差能够被自变量方差所解释的部分或比例。(R-squared = Explained variation / Total variation )在上例中R-squared=0.53, 或是53%, 这说明fedu 解释了53%的受访者的受教育程度的差异。 二元回归的局限性:如果一个变量没有被包含在方程中,但它是因变量的真正原因,那么方程中变量的系数将是有偏的(biased),即会高估或低估了给定自变量和因变量之间真实的因果关系。这就是省略变量偏误(omitted variable bias)或模型设定误差(specification error)。 * 多元回归 * * * * 统计推论 什么是推论统计?(statistical inference):用样本的研究结果来推测总体的情况。是基于概率抽样的原则。 统计显著:结果不可能来自于机会因素 显著性水平(经常用0.05)说明我们有95%的信心认为结果是出于总体中的真实关系,而不是随机因素造成的。 推论统计分为两种:
文档评论(0)