Python与数据科学实验-期末大作业内容报告.docxVIP

下载本文档

509
0
约8.04千字
约 24页
2021-08-13 发布于江西
举报
版权申诉

Python与数据科学实验-期末大作业内容报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

code 浙江工商大学本科生期末大作业报告报告题目: 数据挖掘分类预测实验课程名称： Python与数据科学实验专业名称：计科1902 学号： 1935010102 姓名：徐超信授课教师：宋超成绩：日期： 2021 年6 月 20 日第1章数据挖掘与分类预测发展现状与趋势 ?数据科学的研究:将数据学的理论和方法应用于许多领域，从而形成专门领域的数据学，例如：脑数据学、行为数据学、生物数据学、气象数据学、金融数据学、地理数据学等等。数据挖掘技术:是一个充满希望的研究领域,越来越多人已经认识到数据挖掘技术能将原始数据转换为有意义的形式及其应用的潜在价值,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。作为一个新兴的信息检索技术,数据挖掘存在着很多亟待解决的问题,如数据挖掘算法的有效性和可扩展性、数据的时序性和其他系统集成等。随着数据挖掘技术不断被应用到各个领域和各种算法不断被应用到数据挖掘领域中,将更大激发数据挖掘技术的潜力,进一步推进数挖掘技术的发展和应用。数据挖掘中的分类预测任务与目标数据挖掘的任务数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等分类预测(Classification and Prediction)：数据挖掘中的分类(classification)任务，是在若干样本数据上，学习到一个模型，然后用这个模型对新数据进行预测（分类）。分类的目的是获得一个分类函数或分类模型(也常常称作分类器)，该模型能把数据样本映射到某一个给定类别有: KNN、GNB、Logistic回归、决策树、SVM、线性回归、神经网络等算法应用价值: 数据挖掘日益受到人们的关注，并已成为当前计算机领域的一大热点，其研究重点也逐渐从发现方法转移到系统应用，并且注重多种发现策略和技术的集成，以及多学科之间的相互渗透。由于数据挖掘带来的显著的经济效益，最先是应用于金融和工商业领域。它们都在利用数据挖掘技术帮助管理客户生命周期的各个阶段，包括争取新的客户、在已有客户的身上赚更多的钱和保持好的客户。如果能够确定好的客户的特点，那么就能为客户提供针对性的服务。比如，已经发现了购买某一商品的客户的特征，那么就可以向那些具有这些特征但还没有购买此商品的客户推销这个商品；找到流失的客户的特征就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补，因为保留一个客户要比争取一个客户成本低。保险公司和证券公司也开始采用数据挖掘来减少欺诈。经销商更多的使用数据挖掘来决定每种商品在不同地点的库存，通过数据挖掘更灵活的使用促销和优惠券手段。这些都是数据挖掘的具体应用。现在人们不仅能够迅速接收新生事物，更希望能用所掌握的信息去“预测不可预测的未来”，去更加准确地把握自己的命运。对信息社会中的任何组织或个人来说，其最大的资本就是所掌握的“有用”信息，要想不被信息的海洋所淹没，并在激烈的竞争中拔得头筹，就必须武装自身信息处理能力。第2章分类模型与数据挖掘库sklearn KNN最近邻方法 sklearn.neighbors 提供了 neighbors-based (基于邻居的) 无监督学习以及监督学习方法的功能。无监督的最近邻是许多其它学习方法的基础，尤其是 manifold learning (流行学习) 和 spectral clustering (谱聚类)。 neighbors-based (基于邻居的) 监督学习分为两种： classification （分类）针对的是具有离散标签的数据，regression （回归）针对的是具有连续标签的数据。最近邻方法背后的原理是从训练样本中找到与新点在距离上最近的预定数量的几个点，然后从这些点中预测标签。这些点的数量可以是用户自定义的常量（K-最近邻学习），也可以根据不同的点的局部密度（基于半径的最近邻学习）。距离通常可以通过任何度量来衡量： standard Euclidean distance（标准欧式距离）是最常见的选择。Neighbors-based（基于邻居的）方法被称为非泛化机器学习方法，因为它们只是简单地”记住”了其所有的训练数据尽管它简单，但最近邻算法已经成功地适用于很多的分类和回归问题: 例如手写数字或卫星图像的场景。作为一个 non-parametric（非参数化）方法