基于pyspark的波士顿房价预测案例.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于pyspark的波⼠顿房价预测案例 ⽬录 本实验包含线性回归模型、梯度上升回归、决 树、随机森林、梯度回归树五种模型的创建和⽐较以及加载 ! ⼀⼀、、问问题题描描述述 :: 本次实验休⼠顿房价数据集是⼀个回归问题,共有506个样本,13个输⼊变量和 1个输出变量。数据集中的每⼀⾏数据都是对休⼠顿周边或 城镇房价的情况描述,下⾯对数据集变量说明下,⽅便理解数据集变量代表的意义。 数据集各特征介绍 : · CRIM:城镇⼈均犯罪率。 · ZN:住宅⽤地超过 25000 sq.ft. 的⽐例。 · INDUS :城镇⾮零售商⽤⼟地的⽐例。 · CHAS :查理斯河空变量 (如果边界是河流,则为 1;否则为0)。 · NOX :⼀氧化氮浓度。 · RM:住宅平均房间数。 · AGE:1940 年之前建成的⾃⽤房屋⽐例。 · DIS :到波⼠顿五个中⼼区域的加权距离。 · RAD:辐射性公路的接近指数。 · TAX :每 10000 美元的全值财产税率。 · PTRATIO :城镇师⽣⽐例。 · B:1000 (Bk-0.63)^ 2,其中 Bk 指代城镇中⿊⼈的⽐例。 · LSTAT :⼈⼝中地位低下者的⽐例。 · price:⾃住房的平均房价,以千美元计。 ⼆⼆、、机机器器学学 习习预预测测模模型型概概述述 :: 1、线性回归分析中,如果只包括⼀个⾃变量和⼀个因变量,且⼆者的关系可⽤⼀条直线近似表⽰,这种回归分析称为⼀元线性回归分析。 如果包括两个或两个以上的⾃变量,且因变量和 ⾃变量之间是线性关系,则称为。 2、随机森林回归模型 随机森林回归模型为⼀种集成学习算法。通过在数据上构建多个模型,集成所有模型的建模结果。⼤概流程如下 : 从样本集中使⽤Bootstrap采样选出n个样本。 从所有属性中随机选择k个属性,之后再使⽤信息增益、基尼指数⽅法不断找到最佳分割属性建⽴CART决 树 (也可以是svm、LR 等),这⾥的k控制了随机性的引⼊程度。 重复以上过程建⽴m个分类器,使⽤这些树形成随机森林,通过求均值来得到预测结果 3、GBR梯度上升回归模型 : 本质上就是集思⼴益,集成⼀堆较差的学习算法进⾏学习。每个学习算法准备率都不⾼,但是它们集成起来可以获得很好的准确率 4、 决 树 : 决 树是⼀个由根到叶的递归过程,在每⼀个中间结点寻找划分属性,递归重要的是设置停⽌条件 : (1)当前结点包含的样本属于同⼀类别,⽆需划分 ; (2)当前属性集为空,或是所有样本在所有属性上取值相同⽆法划分,简单理解就是当分到这⼀节点时,所有的属性特征都⽤完了,没有 特征可⽤了,就根据label数量多的给这⼀节点打标签使其变成叶节点 (其实是在⽤样本出现的做先验概率) ; (3)当前结点包含的样本集合为空,不能划分。这种情况出现是因为该样本数据缺少这个属性取值,根据⽗结点的label情况为该结点打标 记 (其实是在⽤⽗结点出现的后验概率做该结点的先验概率)。 5、梯度回归树 (GBDT) GBDT以及其他类型的提升树模型都是基于前向分步算法的 (Forward stagewise algorithm)。 优点 :预测精度⾼、适合低维数据、能处理⾮线性数据与各种类型数据 (离散(one_hot) or 连续) 三三、、数数据据获获取取 1、获取数据集 from sklearn import datasets import math import matplotlib.pyplot as plt house = datasets.load_boston() # 加载数据 x = house.data # 获取特征数据 y = house.target # 获取特征标签 nums = len(house.feature_names) # 获取特征数量 columns = 4 # 指定⼀⾏中图的个数 rows = math.ceil(nums / columns) # 根据特征数和列数计算⾏数 plt.figure(figsize=(10, 12)) # 设置图的⼤⼩ for i in range(nums): # 循环绘制每个特征与房价之间的关系图 plt.subplot(rows, columns, i + 1) # 指定图的位

文档评论(0)

135****0879 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档