- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验文档11-1-r语言数据分析与挖掘操作
R语言数据分析与挖掘操作训练(初级、中级 )
第一部分:初级操作
机器学习、数据挖掘领域的比如关联规则挖掘、聚类、分类等问题。R统计分析计算包都提供了
足够的支持。
关联规则问题源于“买了这件商品的顾客还买了什么”这个问题,现在已经广泛应用于客户行为
分析以及互联网用户行为分析中。关联规则挖掘领域最经典的算法为 Apriori ,R 的第三方包
arules ,就是专门用于做关联规则挖掘的。以下例子需要你已经安装了arules 包。
library(arules)
data - paste(item1,item2,item1,item2,item3, sep=\n)
write(data, file = demo_basket)
tr - read.transactions(demo_basket, format = basket, sep=,)
data(Adult)
rules - apriori(Adult, parameter = list(supp = 0.5, conf = 0.9, target =
rules))
最后一行的 apriori 函数接受一个transaction 对象的输入,输出关联规则对象 rules ,为
方便起见,这里用于计算的 transaction 对象 Adult 是通过第 5行从 arules 包中现成载入进来
的,第 2~4 行说明了怎么从一个文本文件中读入数据并生成一个 transaction 对象。
聚类算法使用最广泛的高效算法无疑是 kmeans ,R在其默认载入的 stats包中就包含了这个函
数,以下是一个来自 kmean说明文档的例子:
x - rbind(matrix(rnorm(100, sd = 0.3), ncol = 2), matrix(rnorm(100, mean =
1, sd = 0.3), ncol = 2))
cl - kmeans(x, 2)
plot(x, col = cl$cluster)
points(cl$centers, col = 1:2, pch = 8, cex=2)
代码第 1 行生成两组两维的正态分布的数据,第一组均值为 0 ,第二组均值为 1 ,两组数据方差
都为 0.3。第 2 行对该数据进行聚类,第 3和第 4 行把聚类结果画出来。
分类器是模式识别领域的研究主题,也是人类认知活动的中心。多年来的学术研究积累下来很
多种类型的分类器,而其中常用的分类器基本都能在 R 中找到对应的实现。诸多分类器中以 svm最
为著名,它也被一些人称为是单分类器的王道。以下是一个利用 svm对著名的 iris数据集进行分
类的过程,运行该例子需要已经安装了e1071 这个包。
library(e1071)
data(iris)
x - subset(iris, select = -Species)
y - iris$Species
model - svm(x, y)
summary(model)
pred - predict(model, x)
table(pred, y)
第 5行代码调用 svm 函数,计算由x 作为特征 y 作为类别标签的分类器模型,第 7 行把模型应
用于原数据进行预测。
第二部分 :R 线性算法操作
每个算法都会从两个视角进行呈现 (利用数据挖掘包来求解):
1) 常规的训练和预测方法
2) caret包的用法
因此,需要知道给定算法对应的软件包和函数,同时还需了解如何利用 caret 包实现这些常用的
算法,从而你可以利用 caret 包的预处理、算法评估和参数调优的能力高效地评估算法的精度。
本文中将用到两个标准的数据集 (标准测试数据集):
Boston Housing dataset for regression (BostonHousing from the mlbench library).
Pima Indians Diabetes dataset for classification (PimaIndiansDiabetes from
the mlbench library).
1) 回归模型:BHD(Boston Housing Dataset)
2) 分类模型: PIDD(Pima Indians Diabetes Dataset)
具体的数据分析算法将被分成两组进行介绍:
1) 线性算
您可能关注的文档
- 大学物理实验绪论73188128.ppt
- 大学计算机信息技术教程实验报告.pdf
- 大连理工大学矩阵与数值分析matlab上机实验.pdf
- 大连理工大学网络高等教育《模拟电子线路》实验报告2013年秋季.pdf
- 太原理工大学软件学院课程设计实验报告相邻数对isbn识别码文本文件单词统计送货..pdf
- 如何撰写工程类科技论文.pptx
- 学生物理实验报告册.doc
- 安徽大学《信息检索》实验报告.pdf
- 实验 02----rfid实验系统 ----125khz.ppt
- 实验-snmp报文和mib - 指导.ppt
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)