统计学习方法pdf.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学习方法——cart, bagging, random forest, boosting ? cart(classification and regression tree) breiman, friedman, olshen amp; stone (1984), quinlan (1993) 思想:递归地将输入空间分割成矩形 优点:可以进行变量选择,可以克服missing data,可以处理混合预测 缺点:不稳定 example: 对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red class: x1^2+x2^2gt;=4.6 green class: otherwise 经过不断分割可以得到最后的分类树:篇二:如何合理选择统计方法——常用统计学方法汇总 01如何选择合适的统计学方法? 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.3 资料方差不齐,(1)采用satterthwate 的t’检验;(2)采用非参数检验,如wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法,tukey法,scheffe法,snk法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的kruscal-wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然后用成组的wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法,tukey法,scheffe法,snk法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然后用符号配对的wilcoxon检验。 ****需要注意的问题: (1) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2) 当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的lsd检验,bonferroni法,tukey法,scheffe法,snk法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确** (3) 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差 别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。 2.分类资料 2.1 四格表资料 2.1.1 例数大于40,且所有理论数大于5,则用普通的pearson 检验。 2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或fisher’s确切概率法检验。 2.1.3 例数小于40,或有理论数小于2,则用fisher’s确切概率法检验。 2.2 2×c表或r×2表资料的统计分析 2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目lt;总格子数目的25%,则用普通的pearson 检验。(2)例数小于40,或理论数小于5的格子数目gt;总格子数目的25%,则用fisher’s确切概率法检验。 2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的wilcoxon秩和检验。 2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。 2.3 r×c表资料的统计分析 2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目lt;总格子数目的25%,则用普通的pearson 检验。

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档