- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
品味统计的见解
品味统计的见解
*以下资料转载于品味统计的博客(一个介绍boosting方法的网页目前在分类预测方法中,random forest,boosting,SVM基本上占据了前3强。而且很多情况下,这3种方法的功效相差无几。
An introduction to Bootstrap
统计书籍,作者是Efron和Tibsharina,都是著名的统计学大家,前者是Bootsrap方法的提出者。可以说Bootstap方法是20世纪后期为数不多的富有统计思想的创新之一,从它的出现开始,就受到了大家的广泛关注,成为了一个研究的热点问题。当然,这种基于计算密集型的方法也广泛的应用,非常的符合了现在计算机技术的发展对统计的推动。
关于Bootstap的文献可是说是数以万计,而且还在增长。有关的专著也很多本了。《An introduction to bootstap》是一本入门型的读物,介绍的非常细致,特别注重从实际的例子引出相关的统计思想和方法,读起来非常的舒服。当然这也和两位作者的统计造诣是分不开的。这书给人的感觉就是充满了统计思想,而不是满页的数学符号,所以是很适合自学的。
高维数据分析中的稀疏sparse问题
近几年,高维数据分析成为统计学范围内的热点话题,几乎所有的大牛统计学家都在研究。
其中,稀疏问题就是其中一类研究方向。当变量or特征个数远大于样本大小时,通常很多特征都是
噪声而非信号,它们会影响我们的分析结果。例如,在基因芯片microarray里,基因个数一般有几千
甚至上万个,而观测个体只有几十或者百来个。从生物上讲,和某个疾病相关的基因也就几十
到几百个左右,剩余的genes都和疾病是无关的。这就产生一个统计问题,如何在分析中,
能够提取感兴趣的features。我们一般把它称为特征选择(feature selection)。稀疏问题
就可以自动的解决特征选择,几乎经典的多元分析的问题都可以推广到高维稀疏情况。近几年
的研究成果有:稀疏回归(lasoo,Lars,SCAD,Elastic net等),稀疏协方差矩阵,稀疏主成分,
稀疏聚类,稀疏相关分析or因子分析。
Stein效应与压缩估计
Stein在1955年指出,在二次损失函数下,多元正态分布的样本均值是均值向量的非容许估计。也就是说,存在另外一个估计使得其风险比样本均值要小。这个效应一般就做stein效应。
后来James and Stein(1961)提出了非常著名的James-Stein估计。其本质就是把样本均值向原点线性压缩。现在看来这个估计很简单,但是就是这个估计开创了有偏估计的时代,很大的丰富了经典估计理论。有偏估计往往可以看作是经验贝叶斯估计,在现代的大规模数据分析中,扮演着至关重要的地位。
模型的不确定性和预测
在一本数据挖掘的书上看到了几句关于model uncertainty和prediction的相互关系的论断。感觉很有含义,值得细细品味,其中体现了经典统计方法和现代数据挖掘之间的差异。
In aworld where model uncertainty is often the limiting aspect of our inferential procedures,the focus became prediction more than testing or estimation.
Good inference requires trade-offs among the biases and variances from each level of modelling.
The adequacy of the model cannot be assumed,so the standard error of aparameter is about avalue that may not be meaningful.
In the mid-range of uncertainty,dealing with model uncertainty carefully usually becomes the dominant issue which can only be tested by predictive criteria.
只要是经典的参数方法和现在非参数方法之间的差异,其中包括:估计,检验vs预测,无偏vs有偏,是否考虑模型的不确定性,维数灾难等。
均值的实际含义?
对于一个随机变量来说,均值是一个很重要的数值特征。粗略的说,就是来描述一个群体的平均水平。其严格的数学定义非常的简单,就是一个随机变量关于概率测度的积分。这样的积分在测度轮或者实分析里是没有什么直观的解释的。而在概率论里却成为了一个群体的主要指标。
就统计问题而言,总体的均值不
原创力文档


文档评论(0)