网站大量收购闲置独家精品文档,联系QQ:2885784924

统计应用的陷阱.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

需要变换还是不需要变换?

我们究竟是在什么空间中呢*?了解数据背景。*在对数据进行统计分析时,必须对各种数据的背景有所了解。01比如笔者曾经在一个人口数据上发现了某种可疑的“周期性”,02后来发现这是由于统计方式的不同而产生的人造周期;如果把这些人为错误放入模型,就贻笑大方了。03不能随意删除观测值*大家都知道,仅仅为了“好的拟合”而任意增补或删除观测点是不适当的。拟合不好的根本原因是模型和数据不匹配,或者是模型的问题,或者是数据问题、或者二者都有问题。如果数据经过核对是无误的,就必须改进模型,不能削足适履。所谓“离群点”、“奇异点”、“异常点”都是以目前的模型为参照的。对统计模型和概念理解的问题*只有求得出解的模型才是可以使用的模型,但并不见得是最合理的。如前所述,模型是对世界的近似和简化。其原因之一在于人们对真实世界认识的局限性;这使得模型的建立成为人们的经验、知识、逻辑推理和主观猜想等的产物。对统计模型和概念理解的问题*1任何模型都是由数学语言表述的;2但并不是任何模型用已经掌握的数学工具都能够解得出来;3此外,即使数学方面不成问题,如果计算机和软件不能够在需要的时间把问题精确(对于模型而言)解答出来,就需要寻求近似解;4如近似解也得不到,模型再“好”也不能用数学假定的真伪无法用数据来验证*模型的简化包含为数学推理方便而设的各种数学假定。它们有助于得到近似模型的“精确解”但毫无例外,统计推断中所有关于总体、数据和模型的数学假定,诸如对总体分布、对模型、对大样本的各种假定等等都无法根据数据来精确验证。表面看来,实际工作者似乎可以不予理会这些数学问题,但这些假定的真伪很可能对统计推断的结果有决定性的影响。3214变量的选择充满危险*04030102模型的变量选择对结果的影响,不仅在回归分析,而且在多元统计分析的实践中特别明显。例如因子分析或主成分分析常被用于排序,但对于变量的随意选择可以完全操纵排序的结果。同样,变量的选择对聚类分析,判别分析,典型相关分析等都会对结果产生重要影响。因此应避免被这些分析的复杂的数学公式和漂亮的计算机输出迷惑,而忘记了变量选择这样的源头要害各种概念…在应用中?*此外,统计显著是不是就真的显著?“最优的”,或“渐近最优”对于计算出来的结果有什么意义?各种概念,如显著性水平、置信度、相合性、最大似然原理、一致最小无偏估计、渐近分布等这些名词背后的基于重复试验、总体或大样本基础上的含义,在实际应用中容易被忘记或者忽视。头脑要清醒*这些概念绝不能仅从其表面字意或数学定义来理解;必须要从收集数据时头脑中的模型、使用模型进行分析或者拟合时对模型和变量的选择、结论的计算、以及模型和实际问题是吻合好坏等等来分析。要弄清楚中间有多少近似、人为的、和无法说清的成分。从实际需要来评判模型。*最有发言权的还是统计模型和实际问题的相关程度(显著性水平取0.05?)不同的检验,特别是一些非参数检验,看上去零假设是一个,但他们所给出的不同的p-值却反映了数据结构的不同方面;它们的备选假设就更不像经典统计那么容易解释;在应用中实际显著比所谓的统计显著更重要。010302危机和挑战意味着机遇*这里所讨论的统计应用中的各种问题仅仅是冰山的一角。之所以这样强调统计应用中的问题,是由于通常的统计教科书(和其他学科的教科书一样)比较理想化。这使学生习惯于“接受”课堂授予的理想化的教条,而不习惯面对充满危机和挑战的现实世界。*统计应用的陷阱吴喜之统计热的原因*统计被人看重的原因是供不应求01一方面是统计的巨大市场。02几乎没有领域和统计没有关系。这是和统计为应用服务的使命及各领域工作者的实践分不开的。03统计为什么这样火爆*另一方面是统计专业所需要的包括数学、统计和计算机在内的功底,绝不是通过任何速成训练就能够达到的。学数学的改行学什么的都有。但即使是学纯粹数学的,改行学统计,也不象学数学的改行力学或物理那么容易一句话,统计人材缺口巨大。当然,这是世界总的形式两股力量*有限的专业统计工作者的主要任务,则是根据各领域的需要,发展新的统计方法和理论,建立新的模型,发展新的计算方法。这也要求他们也参与到其他领域的统计实践中去。而大部分统计实践则由各领域非统计出身的人员来实行12统计应用与学科发展*然而,统计的广泛应用和进行统计工作的人数迅速增加,也导致人们对统计应用中可能出现的问题的忽视。1实际上,在统计应用中有许多陷阱;它们可能使统计推断的结果不可靠、不可信、甚至导致灾难性后果。2统计应用陷阱产生的根源*统计陷阱的产生

文档评论(0)

yingjiali1998 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档