统计在考古学中的应用-第七讲-相关分析.pptVIP

下载本文档

4
0
约3.07千字
约 10页
2018-03-16 发布于河北
举报
版权申诉

统计在考古学中的应用-第七讲-相关分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计在考古学中的应用-第七讲-相关分析

统计学在考古中的应用第七讲相关分析任何事物之间都有联系强弱、直接间接怎样才能发现两个变量有没有关系呢？最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图；每一组数据表示了两个变量x和y的样本。散点图 XY 散点图根据值序列的 X 值和 Y 值将每个值序列显示为图表空间中的数据点。分布特征两个变量之间的关系相关分析和回归分析定量变量的相关但如何在数量上描述相关呢？ Pearson相关系数（Pearson’s correlation coefficient）又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到，这是一个描述线性相关强度的量，取值于-1和1之间。当两个变量有很强的线性相关时，相关系数接近于1（正相关）或-1（负相关），而当两个变量不那么线性相关时，相关系数就接近0。定量变量的相关人们可能会问，对相关的度量都是在其值接近1或-1时相关，而接近于0时不相关。到底如何才能够称为“接近”呢？这很难一概而论。但在计算机输出中都有和这些相关度量相应的检验和p-值；因此可以根据这些结果来判断是否相关 X的样本方差 Y的样本方差样本协方差近似反映X、Y联系强弱和方向克服量纲影响相关系数检验 H0：两变量间无直线相关关系 H1：两变量间有直线相关关系 t F n很大一定的置信度 r大小应用前提线性相关异常值的干扰联合的双变量正态分布回归分析对于现实世界，不仅要知其然，而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的，但是仅仅有满意顾客的比例是不够的；商家希望了解什么是影响顾客观点的因素，及这些因素如何起作用。类似地，医疗卫生部门不能仅仅知道某流行病的发病率，而且想知道什么变量影响发病率，以及如何影响。发现变量之间的统计关系，并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说，统计可以根据目前所拥有的信息（数据）来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型（model）。假如用Y表示感兴趣的变量，用X表示其他可能与Y有关的变量（X也可能是若干变量组成的向量）。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent variable, response variable)，而X称为自变量，也称为解释变量或协变量(independent variable, explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。 “回归”一词最早由Francis Galton引入。 Galton发现，虽然父母的身高对子女的身高起到决定性作用，但给定父母的身高后，他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律（law of universal regression)。 Galton的朋友Karl Pearson通过收集一些家庭的1000多名成员的父子身高数据，证明儿子确实“回归到中等（regression to mediocrity)” 一旦建立了回归模型，除了对变量的关系有了进一步的定量理解之外，还可以利用该模型（函数）通过自变量对因变量做预测（prediction）。这里所说的预测，是用已知的自变量的值通过模型对未知的因变量值进行估计；它并不一定涉及时间先后。变量间的关系确定性关系或函数关系：研究的是确定现象非随机变量间的关系。统计依赖或相关关系：研究的是非确定现象随机变量间的关系。对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的：有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关，得到了他们在初三和高一的各科平均成绩(数据在highschool.txt)。这两个成绩的散点图展示在图中。目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关？能否以初三成绩为自变量，高一成绩为因变量来建立一个回归模型以描述这样的关系，或用于预测。该数据中，除了初三和高一的成绩之外，还有一个定性变量（没有出现在上面的散点图中）。它是学生在高一时的家庭收入状况；它有三个水平：低、中、高，分别在数据中用1、2、3表示。到底学生在高一的家庭收入对成绩有影响吗？是什么样的影响？是否可以取初三成绩（这是定量变量）或（和）家庭收入（定性变量）为自变量，而取高一成绩为因变量，来建立一个描述这些变量之间关系的回归模型呢？定量变量的线性回归分析对例7.1中的两个变量的数据进行线性回归，就是要找到一条直线来适当地代表图1中的那些点的趋势。首先需要确