- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
枣庄学院《数据仓库与挖掘技术》课程实验报告
PAGE
PAGE1
数据仓库与挖掘技术
基于CART树的北京市空气质量预测
专业班级21光伏大数据本科1班
学生姓名刘远飞
学生学号201905170119
实验目的
CART树的北京市空气质量预测
实验原理
首先,通过%matplotlibinline指令(该指令通常用于JupyterNotebook环境),确保绘图结果能够直接嵌入到代码单元格的输出中,从而方便进行交互式的数据分析。
随后,通过plt.rcParams字典,对Matplotlib绘图库的默认参数进行了自定义设置。其中,font.sans-serif=[SimHei]设置了默认的无衬线字体为“SimHei”,这是为了解决在绘制图形时可能出现的中文乱码问题,确保中文能够正确显示。axes.unicode_minus=False则用于确保在绘图时负号能够正确显示,避免出现由于字体问题导致的负号乱码。
接着,导入了三个常用的Python数据处理和可视化库:
numpy(通常缩写为np)是一个用于处理大型多维数组和矩阵的库,提供了大量的数学函数来操作这些数组。
pandas(通常缩写为pd)是一个用于数据处理和分析的库,提供了数据框(DataFrame)和序列(Series)等数据结构,以及丰富的数据处理和分析功能。
matplotlib.pyplot(通常缩写为plt)是Matplotlib库中的一个子库,提供了MATLAB风格的绘图接口,用于绘制各种静态、动态、交互式的图表。
最后,代码从sklearn库中导入了tree模块,该模块提供了决策树算法的实现,包括分类树和回归树,是机器学习领域常用的一个算法。
实验环境
JupyterNotebook环境
(!pipinstallscikit-learn,!pipinstallxlrd==1.2.0的条件下)
实验步骤
1.模块安装
!pipinstallscikit-learn
!pipinstallxlrd==1.2.0
2.模块导入
3.数据集下载
4.数据读取
5.数据预处理
6.去除空值
7.标签数值化
8.数据集拆分
9.模型训练与预测
(1)树深度设置为2
树深度设置为6
10.使用graphviz工具可视化决策树
(1)graphviz安装
(2)Ubuntu操作系统
sudoapt-getupdate
sudoapt-getinstallgraphviz
(3)pip安装graphviz
pipinstallgraphviz
转PDFWindows(将bin目录加入到PATH环境变量中)
利用dot命令将指定的dot文件转换成PDF格式的文件,如文件名weather.pdf
$dot-Tpdf.\weather.dot-oweather.pdf
实验总结
通过基于决策树算法构建的北京市空气质量预测模型的实验研究,我们在多方面取得了显著的进展。首先,我们成功地整合了来自气象、环保、交通等多个领域的大量数据,形成了一个全面而综合的空气质量分析框架。
在模型构建过程中,决策树算法展现出了出色的性能。其对于非线性关系的适应性以及对多源数据的高效整合使得我们能够更准确地预测未来空气质量的变化趋势。模型的可解释性和直观性使得我们能够深入理解各个因素对空气质量的影响,为决策者提供了有力的支持。
此外,我们的研究不仅在理论上取得了显著成果,同时也具有广泛的实际应用价值。通过对未来空气质量的精准预测,政府和环保机构可以更有效地制定应对措施,从而最大限度地降低污染对居民健康的潜在威胁。这种精准的环境管理有望推动城市可持续发展,改善居民生活质量。
综上所述,本次实验不仅在空气质量预测领域取得了实质性的进展,而且为将数据驱动的方法应用于环境科学领域提供了有力的范例。我们的研究不仅为北京市的空气质量管理提供了有力的支持,同时也为其他城市和地区的环境科学研究提供了宝贵的经验和启示。
心得与体会:
通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本?上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。
在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应?用知识的技巧等
在此次实战中,我还学会了下面几点工作学习心态:
1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步
文档评论(0)