数据挖掘——使用R软件预测海藻数量.pptVIP

下载本文档

74
0
约1.03万字
约 39页
2016-11-04 发布于湖北
举报
版权申诉

数据挖掘——使用R软件预测海藻数量.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘——使用R软件预测海藻数量.ppt

使用R软件预测海藻数量李强强 2013.11 R软件 R是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统；数组运算工具（其向量、矩阵运算方面功能尤其强大）；完整连贯的统计分析工具；优秀的统计制图功能；简便而强大的编程语言：可操纵数据的输入和输出，可实现分支、循环，用户可自定义功能。 R在语义上是函数设计语言。它允许在“语言上计算”。这使得它可以把表达式作为函数的输入参数，而这种做法对统计模拟和绘图非常有用。 R是一个免费的自由软件。本案例使用的是R的3.0.1版。背景描述某些高浓度的有害藻类严重破坏着河流的生态环境，因此，能够监测并及早对海藻的繁殖进行预测对提高河流的质量是很有必要的。在约一年时间内，在不同的时间收集了多条不同河流的水样。每个水样测定了它们不同的化学性质和7种有害藻类的存在频率。还记录了如收集的季节、河流大小和水流速度。案例研究动机：1. 化学监测相对人工检测价格便宜，且易于自动化。2. 更好地了解藻类的频率和水样的某些化学性质以及其他特性(如季节、河流类型等)是如何相关的。 0 海藻数据第一个数据集：包含200个水样。每条记录是一条河流在该年的同一季节的三个月内收集的水样的平均值。其中，每条记录由11个变量组成。其中3个名义变量：水样收集的季节、河流大小和河水速度。8个变量是水样的不同化学参数：最大pH值、最小含氧量、平均氯化物含量、平均硝酸盐含量、平均氨含量、平均正磷酸盐含量、平均磷酸盐含量和平均叶绿素含量。与之相关的是7种不同的有害藻类的频率数目。第二个数据集：140个不含7种藻类频率数目的测试集。 1 数据加载 1. 点击文件菜单下的改变工作目录来设定当前工作目录。 2. 输入以下命令把文件中的数据读入： algae-read.table(Analysis.txt, col.names=c(season, size, speed, mxPH, mnO2, Cl, NO3, NH4, oPO4, PO4, Chla, a1, a2, a3, a4, a5, a6, a7), na.strings=c(XXXXXXX)) 3. 点击文件菜单下的“保存工作空间”，输入文件名，退出，下次打开R后可通过拖拽的方式直接打开。 2 数据摘要鉴于没有该问题领域足够的信息，首先了解一些数据的统计特性是一种较好的方式，它方便我们更好地理解问题。获取数据统计特性的方法之一是获取其描述性的统计摘要。命令如下： summary(algae) 对于名义变量，它给出了每个可能取值的频数。对于数值变量，它提供了均值、中位数、四分位数和极值等一系列统计信息。NAs表示缺失值的个数。通过观察这些值，我们可以了解到数据分布的偏度和分散情况。 3 数据可视化(1) 1. 绘制变量mxPH的直方图的两种方式： hist(algae$mxPH) hist(algae$mxPH, prob=T) 区别在于前者给出的是频数，后者是区间的概率。 2. 绘制mxPH的Q-Q图： library(car) qqPlot(algae$mxPH, main=Normal QQ plot of maximum pH) Q-Q图绘制变量值和正态分布的理论分位数的散点图。同时，它给出正态分布的95%置信区间的带状图(虚线)。main为设置图形的标题。 3 数据可视化(2) 3. 绘制变量oPO4的箱图： boxplot(algae$oPO4, ylab=oPO4) rug(algae$oPO4, side=4) abline(h=mean(algae$oPO4, na.rm=T), lty=2) ylab为设置y轴标题； rug函数绘制变量的实际值，side=4表示绘制在图的右侧(1在下方，2在左侧，3在上方)； abline函数绘制水平线，mean表示均值，na.rm=T指计算时不考虑NA值，lty=2设置线型为虚线。 4 数据清理数据缺失的情形在实际问题中非常普遍。处理含有缺失值的数据时常用的几种策略：将含有缺失值的案例剔除。用中心趋势值来填补缺失值。根据变量之间的相关关系填补缺失值。根据案例之间的相似性填补缺失值。使用能够处理缺失值数据的工具(见下一节)。 4.1 剔除缺失值(1) 1. 适用范围：含缺失值的记录在整个数据集中比例很小时。 2. 检查含缺失值的记录： algae[!complete.cases(algae), ] 3. 剔除所有含缺失值的记录： algae-na.omit(algae) 4. 找出每个记录中缺失值的个数： apply(algae, 1, function(x) sum(is.na(x))) 函数apply()是元函数，可在某