R常用数据挖掘函数..docxVIP

下载本文档

129
0
约3.33万字
约 24页
2017-01-29 发布于重庆
举报
版权申诉

R常用数据挖掘函数..docx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

R常用数据挖掘函数.

登录?|?注册窗体顶端窗体底端收藏成功确定收藏失败，请重新收藏确定窗体顶端标题标题不能为空网址标签摘要公开取消收藏窗体底端查看所有私信查看所有通知暂没有新通知返回通知列表下一条上一条分享资讯传PPT/文档提问题写博客传资源创建项目创建代码片u010664846编辑自我介绍，让更多人了解你帐号设置退出社区博客论坛下载技术问答极客头条英雄会服务JOB学院CODE活动CSTOC币兑换俱乐部CTO俱乐部高校俱乐部军军的专栏大数据、机器学习、数据挖掘目录视图摘要视图订阅2016软考项目经理实战班 python编程常用模板总结【博客专家】有奖试读—Windows PowerShell实战指南关闭重点：机器学习总结之各算法常用包和函数标签：机器学习常用算法包及函数 2016-02-09 13:43 32人阅读评论(0) 收藏举报分类：机器学习（55）作者同类文章X版权声明：本文为博主原创文章，未经博主允许不得转载。目录(?)[+]基本操作常用函数及包一线性回归二主成分分析三贝叶斯S3 method for class formulaDefault S3 method四K近邻KNN 算法五决策树六随机森林七支持向量机八神经网络九聚类层次聚类动态聚类Kmeans十EM算法最大期望算法Expectation-maximizationalgorithm又译期望最大化算法十一Bootstrap自助法算法十二bagging装袋算法十三Boostingadaboostxgboost十四协同过滤十五关联规则Aprior算法十六PageRank算法十七时间序列常用到的函数十八文本分析基本操作常用函数及包预测函数：predict() type=”prob”判别该量度的昆虫归类为A、B和C的概率；type=”response”：判别该量度的昆虫的类别；预测分类的概率的函数predict(…, type)参数type： R语音里面不同模型，参数type取值也不同。例如，可能取值有prob、posterior、raw（朴素贝叶斯）、probability（请参考使用包的帮助文档确定），type=”class”表示结果为分类。mice包中的mice(data, m)函数：通过链式方程产生多个虚值。data为数据框或包含不完整数据的矩阵，缺省值为NA；m为多重插补数，默认为5。（随机森林）stats包中的cutree(tree, k, h)函数：把一棵树变成一组数据。tree为hclust()函数产生的数；k为分组数。model_id - cutree(model_hclust, 3) 函数cuttree()将数据iris分类结果iris.hc编为三组分别以1,2,3表示R语言plyr等包合并、排序、分析数据并编制香农-威纳指数 plyr包中的colwise(fun)函数：列式函数，在数据框的列上操作的函数。fun为要数据框的列上操作的函数。数据预处理包：dplyr write.table(x, file, s=T, s=T, sep, quote)函数：将x的内容输出到文件中。x为要输出的内容；file为要输出的文件；s为F不输出行名，默认为T表示输出；s为F不输出列名，默认为T表示输出；sep为每行的分隔符；quote为F表示输出结果不被引用，为T输出结果将被引号引用。 data.table包中的data.table(x)函数：增强的数据框。x为数据框常用包: 1、caret包中的train(formula, data, method, metirc, trControl, tuneGrid, preProcess)函数（不同调谐参数的预测模型）：设置一个网格的调整参数的一些分类和回归例程，适合每个模型，并计算基于重采样的性能测量。method指定分类或回归模型的字符串；metric指定将用于选择的最佳模型的概要度量的字符串；trControl定义控制函数行为值的列表；tuneGrid一个数据框可能的调整值，列名与调整参数相同;preProcess为指定的预处理参数。caret包中的trainControl(method, number, repeats, selectionFunction)函数：训练控制参数。method为重采样方法，有boot/boot632/cv/repeatedcv/LOOCV/LGOCV/none/oob/adaptive_cv/adaptive_boot/adaptive_LGOCV；number为重采样的迭代次数；repeats为几重交叉验证；selectionFunction选择最佳调整参数的函数。caret包中的findCorrelation(x, cutoff)函数：确定高度相关