- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
预测海藻数量1.1基本任务:数据预处理、探索性数据分析和预测模型的构建1.2问题描述与目标某些高浓度的有害海藻对河流生态环境的强大破坏是一个严重问题,她们不仅仅破坏河流的生物,也破坏水质。能够检测并在早期对海藻的繁殖进行预测对提高河流质量是很有必要的。针对这一问题的预测目标,在大约一年的时间里,在不同时间内收集了欧洲多条不同河流的水样。对于每个水样,测定了它们的不同化学性质以及7种有害藻类的存在频率,在水样的收集过程中,也记录了一些其他特征,如收集的季节、河流的大小和水流的速度。本案例研究的动机之一是化学检测价格便宜,并且易于自动化。而通过分析生物样品来识别水中的藻类要涉及显微镜检验,需要训练有素的工作人员,因此即昂贵又缓慢,因此,构建一个可以基于化学性质来准确预测藻类的模型将有助于建立监测有害藻类的廉价的自动化系统。另一个目的是更好地了解影响藻类频率的因素。也就是说,我们要了解藻类的频率和水样的某些化学性质以及其他性质(季节、河流类型等)是如何相关的。1.3数据说明来自于ERUDIT研究网络,并被用于1999年的COIL国际数据分析竞赛。在R软件中可以直接获得。本案例有两个数据集,第一个数据集有200个水样。名为:algae,更精确的说,该数据集的每一条记录是同一河流在该年的同一个季节的三个月内收集的水样的平均值。每条记录由11个变量构成。其中3个变量是名义变量,它们分别描述水样收集的季节、收集样品的河流大小和河水速度。余下的8个变量是所观测水样的不同化学参数,即最大PH值最小含氧量O2平均氯化物含量CI平均硝酸盐含量NO3-平均氨含量NH4+平均正磷酸盐含量PO43-平均磷酸盐含量PO4平均叶绿素含量与这些参数相关的是7种不同有害藻类在相应水样中的频率数目。并未提供所观察藻类的名称的相关信息。第二个数据集由140个额外观测值构成。名为:algae.sols,它们的基本结构和第一个数据集一样,但是它不包含7种藻类的频率数目。可视为测试集。本案例的主要目标是预测140个水样中7种海藻的频率。在这种问题中,任务是建立预测模型,并预测在给定预测变量的取值时相应的目标变量的值。说明哪一个预测变量对目标变量有较大的影响。1.4加载数据利用R软件载入DMwR添加包,里面有我们需要的名为algae的数据框。这个数据框里含有前面提到的200个观测值: library(DMwR) head(algae) season size speed mxPH mnO2 Cl NO3 NH4 oPO41 winter small medium 8.00 9.8 60.800 6.238 578.000 105.0002 spring small medium 8.35 8.0 57.750 1.288 370.000 428.7503 autumn small medium 8.10 11.4 40.020 5.330 346.667 125.6674 spring small medium 8.07 4.8 77.364 2.302 98.182 61.1825 autumn small medium 8.06 9.0 55.350 10.416 233.700 58.2226 winter small high 8.25 13.1 65.750 9.248 430.000 18.250 PO4 Chla a1 a2 a3 a4 a5 a6 a71 170.000 50.0 0.0 0.0 0.0 0.0 34.2 8.3 0.02 558.750 1.3 1.4 7.6 4.8 1.9 6.7 0.0 2.13 187.057 15.6 3.3 53.6 1.9 0.0 0.0 0.0 9.74 138.700 1.4 3.1 41.0 18.9 0.0 1.4 0.0 1.45 97.580 10.5 9.2 2.9 7.5 0.0 7.5 4.1 1.06 56.667 28.4 15.1 14.6 1.4 0.0 22.5 12.6 2.9函数head()将显示数据框的前6行。数据框的每一行代表一个观测值。1.5数据可视化和摘要鉴于开始我们对该领域一无所知,首先我们要了解一些数据的统计特性,为后面的数据处理与建模提供更多的信息。获取数据统计特性的一个方法是获取数据的描述性统计摘要。 summary(algae) season size speed mxPH autumn:40 large :45 high :84 Min.
您可能关注的文档
最近下载
- 《走遍美国(中英文对照文本版免费)》.doc VIP
- 合肥文旅博览集团笔试题及完整答案详解1套.docx VIP
- 主持人妆 新闻类女主持人妆.pptx
- 《中华人民共和国社会保险法》培训解读课件.pptx VIP
- 特种设备岗位隐患排查标准.xls VIP
- 沼气净化提纯工艺的应用技术.pdf VIP
- 电烙铁焊接工艺过程确认文件12页.pdf VIP
- 《信息设计》课件——4信息图表里的象形图设计.pptx VIP
- 三级养老护理员国家职业技能培训模块二项目六功能促进任务三指导或协助老年人使用安全防护性辅助器具.pptx VIP
- 2025年唐山市开平区(中小学、幼儿园)教师招聘考试模拟试题及答案解析.docx VIP
文档评论(0)