网站大量收购独家精品文档,联系QQ:2885784924

高维数据统计分析.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高维数据统计分析高维数据统计分析

高维、相依和不完全数据的统计分析 李国英中国科学院数学与系统科学研究院系统科学所 现代科学技术和社会经济的许多领域都遇到高维、相依和不彻底数据的统计分析问题,它是目前统计学应用和理论中面临困苦最多、挑战最严峻,也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识,分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况,然后介绍我国学者在相干领域中的研究成果,最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉,以期得到国内同仁对统计学发展更多的关心和反对。由于笔者程度和知识所限,定有疏漏和不妥之处,欢迎批评指正。 统计学( statistics 我国习惯上称为数理统计)研究效地收集、分析和解释数据,以提取信息、建立模型,并进行推断、预测和决策的方式和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据(包括各种资料),再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力,也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。 大致从十七世纪开始,由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而蒙发了统计学。例如, 17 世纪中期, J. Graunt 在人口死亡等社会问题的研究中,发展了最早的描述统计; 18 世纪末 19 世纪初, A. M. Legendre 和 C. F. Gauss 在研究测地学和天体物理的数据分析中,提出了最小二乘法和误差的正态分布理论; 19 世纪中期,F. Galton 在研究生物遗传规律的过程中发明了相干分析和回归分析方式。关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》(《数理统计与管理》, 1998 年第 2 期至 1999 年第 6 期)。进入二十世纪以后,相继出现了几位伟大的数学家和统计学家 K. Pearson 、 R. A. Fisher 、 A. N. Kolmogrov 、 N. Neyman 、 E. Pearson 和 A. Wald 等,由于他们的奠基性工作,统计学方式和理论都有了很大发展,到四十年代中期成为一门成熟的学科。近五十多年,突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题,计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富,理论更加深刻,统计方式也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域,对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如, 1984 年美国《科学》杂志把顺计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项(第一项是塑料,第六项是电视,第十六项是计算机)。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系,许多大学还同时设有生物统计系或林业统计系等等;许多大企业聘用统计学家为其解决统计问题,例如美国的贝尔公司就拥有数十人的统计学家队伍,著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在,统计学已经成为许多学科领域必不可少的工具;它还与一些学科相结合形成了相应的专业统计,例如,生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。 在当今的信息和知识经济时代,人类研究的科学和社会问题更加高深、更加复杂、更加庞大,有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复杂的问题。例如,复杂系统的统计建模,经济金融中的预测和决策,高维、定性和不彻底数据的统计分析,数据库等巨型复杂数据的信息提取和知识发现,相依变量和动态系统的统计规律,小样本和相干信息的统计推断,信号和图象的统计处理等等。因此,统计学正面临着前所未有的巨大挑战和机遇,其中高维、相依和不彻底等复杂数据的统计分析是一个带有普遍墟履突出难题。例如,雷达网、信息网等接收和传输的信号数据,卫星遥感观测的图象数据,文字语焰履记录数据,DNA和蛋白质构造的测试数据,全国乃至全球的气象和环境数据,人口、企业、教育、科技、医疗卫生等社会调查数据,以及股市、保险、信用卡、房地产等经济金融数据,都是维数很高(数十、数百乃至上千维)、构造十分复杂的数据,许多数据还是前后相依(不独立)的;在工业、国防、天文和医学等领域存在大量的不彻底数据,即人们不能得到所关心的某些变量的数值,而只知道它们所在的区域,甚至彻底不知道部分变量钥锟分场合的数值(即缺失数据)。而且在实际问题中,往往同时遇到多种情况。例如,来自复杂现象的数据一般是高维的,许多时候还

文档评论(0)

ymeioxianw + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档