- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
线性回归中“回归”的含义
今天我就简单谈谈自己的一些新想法。我们从最基本的容易引起
歧义的地方出发。很多人问我,回归(regression)和拟合(fitting)
有什么不同?其实如果你想从数学的角度去区分它们,你就出不来了。
知识往往都有“先入为主”的那种影响。我们接触的第一类回归问题,
就是简单线性回归,或者多项式回归,而这恰恰和我们接触的拟合问
题“天然地相似”:最小二乘法求解参数。因此,那些数学出身的学
生,就始终很难将这两类问题真正区分开。但是如果从历史发展的角
度,结合更多实际问题来看,这个问题是很容易体会清楚的。
开始的时候,人们得到了很多组数据,这些数据之间貌似是有联
系的,于是人们想要找到一种近似的函数关系,来对这些组变量的联
系进行某种描述,进而获得某种解释。当然,人们十分清楚,如果这
些数据都是精确无误的,那么经过这些点的插值函数就能较好地解决
问题。但是现在,这些采集得到的数据可能是有误差的,或者是
biased的,于是插值函数的准确性就反而要被质疑了。于是人们就想
找一条不经过任何点,但是却能描述这些数据的基本规律的曲线。这
就是拟合。拟合最初是由勒让德和高斯两位数学家在1804年和1809
年提出的,那个时候,概率和统计和现在相比,简直还处于原始阶段,
所以人们根本没有去仔细分析那些造成数据不准确的偏差到底有没有
什么规律。人们的直觉,就是这条曲线和那些点的距离“越近越好”。
于是,就有了“偏差的绝对值和最小”和“偏差的平方和最小”两种
优化方法。但是为什么人们最终选择了后者,即现在熟知的“最小二
乘原理”呢?说起来也很偶然。第一个原因是绝对值不容易计算,而
平方和“光滑性”比较好,人们计算方便;另一个原因则更为深远,
那就是“最小二乘”可以在向量的内积空间中得到一种非常漂亮的几
何解释:正交投影。哈哈,一个技术上的原因,一个数学上的原因。
一个是历史的局限性,一个是数学对概率统计的强大优势性,这些历
史偶然,就使得“最小二乘原理”在很长一段时间独霸天下的局面。
从此,拟合,诞生了!
但是人们很快就遇到了两个新问题:
第一,拟合曲线,单从它在已知点的逼近情况来看,也许可以比
较好,但是,这条曲线,在那些未知点处真的可靠么?拟合和插值不
一样,插值至少有泰勒展开这种数学理论支撑,所以人们非常清楚插
值的可靠性,但是拟合,到目前为止,实在是缺乏数学理论的支撑。
起初科学技术不是很发达,人们可能还观察不到自然界那些非常复杂
的数据,采集到的数据的量也非常有限,于是对这些点的拟合看上去
还没什么麻烦和问题。但是后来随着数据量的增大,人们逐渐发现,
之前用拟合得到的结果变得“不靠谱”了。
第二,人们容易想到的回归曲线的形式,无非就是直线,或者更
复杂点的,那些初等函数,这些都是带参数的曲线,在形态上就不是
那么灵活。但是,随着人们逐渐观察到更多形态复杂的数据的形式,
寻找合适的参数曲线变成了一件非常头痛的事情,于是,拟合的实际
操作,也越来越难了。
终于,到19实际末的时候,承受着各种困扰,经过了大半个世纪
的挣扎,拟合似乎“山穷水尽”,人们已经看不到其前途和价值了。
然而19世纪末,一场全新的革命已经蓄势待发了!高尔顿的一篇
谈论人的身高的文章,提出了“回归”这个名词:“那些高个子的后
代的身高,有种回归到大众身高的趋势。”道尔顿自己绝不会想到,
自己竟然为这个世界创造了两个新的概念:一个是回归,一个是
regressiontowardsthemean。19实际末的时候,古典概率理论已
经比较成熟了,统计学的诞生的基础已经有了。那时,一个叫卡尔·皮
尔逊的年轻数学家,做了很多生物上、农业上的试验,使用了很多数
据分析的方法,从最初的对数据的描述,到对数据的绘图,再到后来,
使用拟合来寻找两组变量的联系……这个叫皮尔逊的,就是现代统计学
的鼻祖,也是第一次统计科学革命的领军人物。皮尔逊在1904来到伦
敦大学学院(UCL),在他人生将尽的时候做了一件划时代的事情:
建立了世界上第一个统计系。从此,统计,statistics,和数学独立了,
成为了另一个极具生命力的学科。皮尔逊的儿子,继承了父业,也成
为了一代统计学大师。到这个时候,人们已经开始学会使用随机变量,
使用概率模型来描述数
文档评论(0)