- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第10章直线回归与相关
第十章 直线回归与相关
本章介绍双变量资料的直线回归(linear regression)与直线相关
(linearcorrelation)的统计方法,用以研究两个变量的数量关系,包括统
计描述和统计推断。
第一节 直线回归
一、直线回归方程
统计研究的双变量有2种情况:①一个变量是选定变量,以X表示,其
X值是选定的;一个变量是随机变量,以 Y 表示,其 Y 值是随机变化的。医
学和生物学中常见的是各X 值处 Y 服从正态分布。例如选定变量为年龄 X,
用1 岁作间距,随机变量为各岁处人群的身高Y,则各 X值处 Y 服从正态分
布。②两个变量都是随机变量,以 X和Y表示。常见的是(X, Y)服从双变
量正态分布(bivariation normal distribution),即任意X值处Y服从正
态分布,任意Y 值处X 服从正态分布。例如某个人群的身高和体重用X 和 Y
表示,则(X,Y)服从双变量正态分布。
双变量资料的统计方法是研究随机变量和选定变量或两个随机变量的数
量关系。这种研究是群体研究,其数量关系为统计关系或不确定关系。X 值
处的个体Y值是不确定的,而是以其均数为中心随机变化。例如不同年龄处
的个体身高值是不确定的,而是以该年龄的身高均数为中心而随机变化。这
和一般数学研究两个变量的个体函数关系或确定关系不同。
两个变量的数量关系就研究目的来说有依存关系和互依关系。依存关系
中一个为自变量,常以X表示;一个为应变量,常以Y表示。研究X对Y的
作用或Y 对X 的依赖,用回归分析。互依关系中两个变量可令为X 和 Y。研
究X和Y的彼此关系或彼此影响,用相关分析。一般说来,相关分析只适用
于双随机变量。
两个变量的数量关系就数学形式来说有直线关系和曲线关系(或非直线
关系)。直线关系为最简单和最基本关系,用直线回归与直线相关描述。本
节介绍直线回归。
如果选定变量各 X 值处随机变量 Y 服从正态分布且方差相等,各 X 值
处 Y 的总体均数μ
Y.x
不等且在一条直线上,则该直线称为总体的μ
Y.X
对 X
的回归直线。双变量正态分布总体若X和Y的总体相关系数(见下节)不等
于零,则存在μ
Y.X
对X和μ
Y.X
(Y值处X的总体均数)对 Y的两条回归直线,
但实际应用中一般只研究一条回归直线,可定自变量为X,应变量为Y。
设样本的n对变量值为:(X
1
,Y
2
),(X
2
,Y
2
),…,(X
n
,Y
n
)。如
果观察到Y随X的变化有直线趋势,即Y随X增大而有相应的增大或减小趋
势,把 n 对变量值在直角坐标图上描出相应的 n 点,散点图(scatter
diagram)呈直线趋势(并非所有散点恰在 1 条直线上),则可拟合样本 Y
对X的直线回归方程(linear regression equation),作为总体直线回归
方程的估计。据样本 n 对变量值拟合直线回归方程的方法用最小二乘法
(leastsquare method),即使各散点离回归直线的纵向距离平方和为最小。
样本直线回归方程及其计算公式为
)
Y a bX=+( · )101
b
X X Y Y
X X
XYY n
XXn
=
??
?
=
?
?
∑
∑
∑∑
∑∑
()()
()
() /
() /
222
( · )102
( )a Y bXY n bX n=???∑∑/() /( · )103
)
Y为 值处 的总体均数(μ )的估计值。 为常数项,是回归直线XYa
Y.X
线在 Y 轴上的截距。b 称为直线回归系数,简称回归系数(regression
coefficient),是直线的斜率。回归系数b描述Y依赖X的直线变化的数量
关系的方向与大小。
为了进行直观分析,可据直线回归方程绘制回归直线。在X的实测全距
范围内任取相距较远且易读数的两个X值,代入直线回归方程求得两个Y值,
把这两对变量值在直角坐标图上描两点,通过两点连直线。
直线回归方程及相应的回归直线的主要用途有:①描述应变量依赖自变
量变化而变化的数量关系。例如描述儿童身高依赖年龄变化而变化的数量关
系。②由易测的变量值来估算难测的变量值。如用病人体重来估算其体表面
积。③由现在的变量值来预测将来的变量值。如由父亲身高来预测儿子成人
后的身高。④由于引入自变量,缩减了应变量的变异,因此能更精密地确定
不同自变量值处应变量值的正常值范围。例如若不考虑年龄,小儿体重的变
异范围大,即正常值范围宽,引入年龄作为体重的自变量,各年龄处小儿体
重的变异减小,正常值范围变窄。
例 10·1 某地10名女中学生的体重与肺活量如表10-1的第(1)、(2)、
(3)栏。①以体重为 X(kg)、肺活量为 Y(L),绘制散点图,观察有无直
线趋势。②若有直线趋
您可能关注的文档
- 科学阐释与批判-库恩与罗斯科学哲学思想比较.doc
- 科室1般人员考核办法.doc
- 科学评价女性领导的优势及劣势.doc
- 科廷大学艺术和创意产业.docx
- 科幻作家王晋康-中国科幻之路还很长但不乏希望.doc
- 科技作品类说明格式规范.doc
- 科学技术成果鉴定证.doc
- 科技促进年度活动小结.doc
- 科帕奇新功能使用.doc
- 科学统筹带兵实践中若干重大关系.doc
- 2025届河南省安阳第三十六中学高三六校第一次联考历史试卷含解析.doc
- 2025届北京市西城区第三十一中学高考历史全真模拟密押卷含解析.doc
- 2025届江苏省七市高三下学期第五次调研考试化学试题含解析.doc
- 2025届湖南省常德市淮阳中学高三下学期第五次调研考试历史试题含解析.doc
- 青海师大二附中2025届高三下第一次测试生物试题含解析.doc
- 内蒙古呼伦贝尔市重点中学2025届高考生物三模试卷含解析.doc
- 2025届广东省阳东广雅学校高三第二次模拟考试历史试卷含解析.doc
- 湖南省洞口县第二中学2025届高三(最后冲刺)历史试卷含解析.doc
- 福建省长泰县一中2025届高考生物倒计时模拟卷含解析.doc
- 南京市第二十九中学2025届高考历史倒计时模拟卷含解析.doc
最近下载
- 光伏系统的设计课件范本.ppt
- 产科优秀护理疑难病例讨论.pptx VIP
- 小学英语语法专项训练下册.pdf VIP
- GB∕T 16739.1-2023 汽车维修业经营业务条件 第1部分:汽车整车维修企业.pdf
- 【行业标准】SHT 3517-2013 石油化工钢制管道工程施工技术规程.pdf
- 部编版(五四学制)六年级上册历史知识点复习提纲版.pdf VIP
- 湘美版六年级上册美术教案(全套).doc VIP
- D702-1~3 常用低压配电设备及灯具安装(2004年合订本)_(高清).pdf
- 初中道法人教部编版2024七年级上册《第十课保持身心健康》2024年同步练习卷.pdf
- 华为成功之道解读之二客户至上结构化表达.pptx VIP
文档评论(0)