- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学习方法——cart, bagging, random forest, boosting
? cart(classification and regression tree)
breiman, friedman, olshen amp; stone (1984), quinlan (1993)
思想:递归地将输入空间分割成矩形
优点:可以进行变量选择,可以克服missing data,可以处理混合预测 缺点:不稳定
example:
对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的: red class: x1^2+x2^2gt;=4.6
green class: otherwise
经过不断分割可以得到最后的分类树:篇二:如何合理选择统计方法——常用统计学方法汇总
01如何选择合适的统计学方法?
1连续性资料
1.1 两组独立样本比较
1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。
1.1.3 资料方差不齐,(1)采用satterthwate 的t’检验;(2)采用非参数检验,如wilcoxon检验。
1.2 两组配对样本的比较
1.2.1 两组差值服从正态分布,采用配对t检验。
1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。
1.3 多组完全随机样本比较
1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法,tukey法,scheffe法,snk法等。
1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的kruscal-wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然后用成组的wilcoxon检验。
1.4 多组随机区组样本比较
1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有lsd检验,bonferroni法,tukey法,scheffe法,snk法等。
1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用bonferroni法校正p值,然后用符号配对的wilcoxon检验。
****需要注意的问题:
(1) 一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。
(2) 当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的lsd检验,bonferroni法,tukey法,scheffe法,snk法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**
(3) 关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差
别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。
2.分类资料
2.1 四格表资料
2.1.1 例数大于40,且所有理论数大于5,则用普通的pearson 检验。
2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的 检验或fisher’s确切概率法检验。
2.1.3 例数小于40,或有理论数小于2,则用fisher’s确切概率法检验。
2.2 2×c表或r×2表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目lt;总格子数目的25%,则用普通的pearson 检验。(2)例数小于40,或理论数小于5的格子数目gt;总格子数目的25%,则用fisher’s确切概率法检验。
2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的wilcoxon秩和检验。
2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。
2.3 r×c表资料的统计分析
2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目lt;总格子数目的25%,则用普通的pearson 检验。
您可能关注的文档
最近下载
- 水污染控制工程(第4版)全套PPT课件.pptx
- 2025年,跨境电商数据合规性风险评估与合规体系建设指南报告.docx
- (2025秋新版)部编版二年级语文上册《 语文园地二》PPT课件.pptx VIP
- 2024年社会工作者中级《社会工作实务》真题及答案解析.pdf VIP
- JGT 366-2012-外墙保温用锚栓.pdf
- 基坑坍塌事故专项应急预案桌面演练脚本.docx VIP
- 小学阶段需要掌握的文学常识.docx VIP
- 课件mike新11hd so nam模型培训教程.pdf
- 《控制工程基础》教案.docx VIP
- Q∕GDW 11021-2013 变电站调控数据交互规范.docx VIP
文档评论(0)