基于pyspark的波士顿房价预测案例.pdfVIP

下载本文档

22
0
约5.94千字
约 6页
2023-11-12 发布于湖北
举报
版权申诉

基于pyspark的波士顿房价预测案例.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于pyspark的波⼠顿房价预测案例⽬录本实验包含线性回归模型、梯度上升回归、决树、随机森林、梯度回归树五种模型的创建和⽐较以及加载！⼀⼀、、问问题题描描述述：：本次实验休⼠顿房价数据集是⼀个回归问题，共有506个样本，13个输⼊变量和 1个输出变量。数据集中的每⼀⾏数据都是对休⼠顿周边或城镇房价的情况描述，下⾯对数据集变量说明下，⽅便理解数据集变量代表的意义。数据集各特征介绍： · CRIM：城镇⼈均犯罪率。 · ZN：住宅⽤地超过 25000 sq.ft. 的⽐例。 · INDUS ：城镇⾮零售商⽤⼟地的⽐例。 · CHAS ：查理斯河空变量（如果边界是河流，则为 1；否则为0）。 · NOX ：⼀氧化氮浓度。 · RM：住宅平均房间数。 · AGE：1940 年之前建成的⾃⽤房屋⽐例。 · DIS ：到波⼠顿五个中⼼区域的加权距离。 · RAD：辐射性公路的接近指数。 · TAX ：每 10000 美元的全值财产税率。 · PTRATIO ：城镇师⽣⽐例。 · B：1000 （Bk-0.63）^ 2，其中 Bk 指代城镇中⿊⼈的⽐例。 · LSTAT ：⼈⼝中地位低下者的⽐例。 · price：⾃住房的平均房价，以千美元计。⼆⼆、、机机器器学学习习预预测测模模型型概概述述：： 1、线性回归分析中，如果只包括⼀个⾃变量和⼀个因变量，且⼆者的关系可⽤⼀条直线近似表⽰，这种回归分析称为⼀元线性回归分析。如果包括两个或两个以上的⾃变量，且因变量和⾃变量之间是线性关系，则称为。 2、随机森林回归模型随机森林回归模型为⼀种集成学习算法。通过在数据上构建多个模型，集成所有模型的建模结果。⼤概流程如下：从样本集中使⽤Bootstrap采样选出n个样本。从所有属性中随机选择k个属性，之后再使⽤信息增益、基尼指数⽅法不断找到最佳分割属性建⽴CART决树（也可以是svm、LR 等），这⾥的k控制了随机性的引⼊程度。重复以上过程建⽴m个分类器，使⽤这些树形成随机森林，通过求均值来得到预测结果 3、GBR梯度上升回归模型：本质上就是集思⼴益，集成⼀堆较差的学习算法进⾏学习。每个学习算法准备率都不⾼，但是它们集成起来可以获得很好的准确率 4、决树：决树是⼀个由根到叶的递归过程，在每⼀个中间结点寻找划分属性，递归重要的是设置停⽌条件：（1）当前结点包含的样本属于同⼀类别，⽆需划分；（2）当前属性集为空，或是所有样本在所有属性上取值相同⽆法划分，简单理解就是当分到这⼀节点时，所有的属性特征都⽤完了，没有特征可⽤了，就根据label数量多的给这⼀节点打标签使其变成叶节点（其实是在⽤样本出现的做先验概率）；（3）当前结点包含的样本集合为空，不能划分。这种情况出现是因为该样本数据缺少这个属性取值，根据⽗结点的label情况为该结点打标记（其实是在⽤⽗结点出现的后验概率做该结点的先验概率）。 5、梯度回归树（GBDT） GBDT以及其他类型的提升树模型都是基于前向分步算法的（Forward stagewise algorithm）。优点：预测精度⾼、适合低维数据、能处理⾮线性数据与各种类型数据（离散(one_hot) or 连续）三三、、数数据据获获取取 1、获取数据集 from sklearn import datasets import math import matplotlib.pyplot as plt house = datasets.load_boston() # 加载数据 x = house.data # 获取特征数据 y = house.target # 获取特征标签 nums = len(house.feature_names) # 获取特征数量 columns = 4 # 指定⼀⾏中图的个数 rows = math.ceil(nums / columns) # 根据特征数和列数计算⾏数 plt.figure(figsize=(10, 12)) # 设置图的⼤⼩ for i in range(nums): # 循环绘制每个特征与房价之间的关系图 plt.subplot(rows, columns, i + 1) # 指定图的位