统计学习方法pdf.docVIP

下载本文档

106
0
约1.42万字
约 11页
2019-07-10 发布于上海
举报
版权申诉

统计学习方法pdf.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学习方法——cart, bagging, random forest, boosting ? cart（classification and regression tree） breiman, friedman, olshen amp; stone (1984), quinlan (1993) 思想：递归地将输入空间分割成矩形优点：可以进行变量选择，可以克服missing data，可以处理混合预测缺点：不稳定 example: 对于下面的数据，希望分割成红色和绿色两个类，原本数据生成是这样的： red class: x1^2+x2^2gt;=4.6 green class: otherwise 经过不断分割可以得到最后的分类树：篇二：如何合理选择统计方法——常用统计学方法汇总 01如何选择合适的统计学方法？ 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.3 资料方差不齐，（1）采用satterthwate 的t’检验；（2）采用非参数检验,如wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布，采用配对t检验。 1.2.2 两组差值不服从正态分布，采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布，且各组方差齐性，直接采用完全随机的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有lsd检验，bonferroni法，tukey法，scheffe法，snk法等。 1.3.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的kruscal－wallis法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用bonferroni法校正p值，然后用成组的wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布，且各组方差齐性，直接采用随机区组的方差分析。如果检验结果为有统计学意义，则进一步作两两比较，两两比较的方法有lsd检验，bonferroni法，tukey法，scheffe法，snk法等。 1.4.2资料不符合正态分布，或各组方差不齐，则采用非参数检验的fridman检验法。如果检验结果为有统计学意义，则进一步作两两比较，一般采用bonferroni法校正p值，然后用符号配对的wilcoxon检验。 ****需要注意的问题：（1）一般来说，如果是大样本，比如各组例数大于50，可以不作正态性检验，直接采用t检验或方差分析。因为统计学上有中心极限定理，假定大样本是服从正态分布的。（2）当进行多组比较时，最容易犯的错误是仅比较其中的两组，而不顾其他组，这样作容易增大犯假阳性错误的概率。正确的做法应该是，先作总的各组间的比较，如果总的来说差别有统计学意义，然后才能作其中任意两组的比较，这些两两比较有特定的统计方法，如上面提到的lsd检验，bonferroni法，tukey法，scheffe法，snk法等。**绝不能对其中的两组直接采用t检验，这样即使得出结果也未必正确** （3）关于常用的设计方法：多组资料尽管最终分析都是采用方差分析，但不同设计会有差别。常用的设计如完全随即设计，随机区组设计，析因设计，裂区设计，嵌套设计等。 2．分类资料 2.1 四格表资料 2.1.1 例数大于40，且所有理论数大于5，则用普通的pearson 检验。 2.1.2 例数大于40，所有理论数大于1，且至少一个理论数小于5，则用校正的检验或fisher’s确切概率法检验。 2.1.3 例数小于40，或有理论数小于2，则用fisher’s确切概率法检验。 2.2 2×c表或r×2表资料的统计分析 2.2.1 列变量＆行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目lt;总格子数目的25％，则用普通的pearson 检验。（2）例数小于40，或理论数小于5的格子数目gt;总格子数目的25％，则用fisher’s确切概率法检验。 2.2.2列变量为效应指标，且为有序多分类变量，行变量为分组变量，用普通的pearson 检验只说明组间构成比不同，如要说明疗效，则可用行平均分差检验或成组的wilcoxon秩和检验。 2.2.3 列变量为效应指标，且为二分类变量，行变量为有序多分类变量，则可采用普通的pearson 检验比较各组之间有无差别，如果总的来说有差别，还可进一步作两两比较，以说明是否任意两组之间的差别都有统计学意义。 2.3 r×c表资料的统计分析 2.2.1 列变量＆行变量均为无序分类变量，则（1）例数大于40，且理论数小于5的格子数目lt;总格子数目的25％，则用普通的pearson 检验。