- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于pyspark的波⼠顿房价预测案例
⽬录
本实验包含线性回归模型、梯度上升回归、决 树、随机森林、梯度回归树五种模型的创建和⽐较以及加载 !
⼀⼀、、问问题题描描述述 ::
本次实验休⼠顿房价数据集是⼀个回归问题,共有506个样本,13个输⼊变量和 1个输出变量。数据集中的每⼀⾏数据都是对休⼠顿周边或
城镇房价的情况描述,下⾯对数据集变量说明下,⽅便理解数据集变量代表的意义。
数据集各特征介绍 :
· CRIM:城镇⼈均犯罪率。
· ZN:住宅⽤地超过 25000 sq.ft. 的⽐例。
· INDUS :城镇⾮零售商⽤⼟地的⽐例。
· CHAS :查理斯河空变量 (如果边界是河流,则为 1;否则为0)。
· NOX :⼀氧化氮浓度。
· RM:住宅平均房间数。
· AGE:1940 年之前建成的⾃⽤房屋⽐例。
· DIS :到波⼠顿五个中⼼区域的加权距离。
· RAD:辐射性公路的接近指数。
· TAX :每 10000 美元的全值财产税率。
· PTRATIO :城镇师⽣⽐例。
· B:1000 (Bk-0.63)^ 2,其中 Bk 指代城镇中⿊⼈的⽐例。
· LSTAT :⼈⼝中地位低下者的⽐例。
· price:⾃住房的平均房价,以千美元计。
⼆⼆、、机机器器学学 习习预预测测模模型型概概述述 ::
1、线性回归分析中,如果只包括⼀个⾃变量和⼀个因变量,且⼆者的关系可⽤⼀条直线近似表⽰,这种回归分析称为⼀元线性回归分析。
如果包括两个或两个以上的⾃变量,且因变量和 ⾃变量之间是线性关系,则称为。
2、随机森林回归模型
随机森林回归模型为⼀种集成学习算法。通过在数据上构建多个模型,集成所有模型的建模结果。⼤概流程如下 :
从样本集中使⽤Bootstrap采样选出n个样本。
从所有属性中随机选择k个属性,之后再使⽤信息增益、基尼指数⽅法不断找到最佳分割属性建⽴CART决 树 (也可以是svm、LR
等),这⾥的k控制了随机性的引⼊程度。
重复以上过程建⽴m个分类器,使⽤这些树形成随机森林,通过求均值来得到预测结果
3、GBR梯度上升回归模型 :
本质上就是集思⼴益,集成⼀堆较差的学习算法进⾏学习。每个学习算法准备率都不⾼,但是它们集成起来可以获得很好的准确率
4、
决 树 :
决 树是⼀个由根到叶的递归过程,在每⼀个中间结点寻找划分属性,递归重要的是设置停⽌条件 :
(1)当前结点包含的样本属于同⼀类别,⽆需划分 ;
(2)当前属性集为空,或是所有样本在所有属性上取值相同⽆法划分,简单理解就是当分到这⼀节点时,所有的属性特征都⽤完了,没有
特征可⽤了,就根据label数量多的给这⼀节点打标签使其变成叶节点 (其实是在⽤样本出现的做先验概率) ;
(3)当前结点包含的样本集合为空,不能划分。这种情况出现是因为该样本数据缺少这个属性取值,根据⽗结点的label情况为该结点打标
记 (其实是在⽤⽗结点出现的后验概率做该结点的先验概率)。
5、梯度回归树 (GBDT)
GBDT以及其他类型的提升树模型都是基于前向分步算法的 (Forward stagewise algorithm)。
优点 :预测精度⾼、适合低维数据、能处理⾮线性数据与各种类型数据 (离散(one_hot) or 连续)
三三、、数数据据获获取取
1、获取数据集
from sklearn import datasets
import math
import matplotlib.pyplot as plt
house = datasets.load_boston() # 加载数据
x = house.data # 获取特征数据
y = house.target # 获取特征标签
nums = len(house.feature_names) # 获取特征数量
columns = 4 # 指定⼀⾏中图的个数
rows = math.ceil(nums / columns) # 根据特征数和列数计算⾏数
plt.figure(figsize=(10, 12)) # 设置图的⼤⼩
for i in range(nums): # 循环绘制每个特征与房价之间的关系图
plt.subplot(rows, columns, i + 1) # 指定图的位
您可能关注的文档
最近下载
- LS产电伺服L7系列用户手册.pdf
- 特种设备作安全管理考试试题练习卷附答案(一).doc
- 2024-2025学年高二物理上学期期中考点大串讲(教科版)专题06 电磁场与电磁波初步【考点清单】(原卷版).docx VIP
- 高危儿的护理诊断ppt.pptx VIP
- 免征企业所得税农产品初加工范围确定汇.doc VIP
- 《实验室安全知识培训》ppt课件教案.ppt VIP
- 2023-2024学年广东省广州市花都区九年级(上)期末语文试卷.doc VIP
- AI在游戏AI设计与智能NPC.pptx VIP
- 2025江苏南京四桥经济园有限公司招聘10人考试备考试题及答案解析.docx VIP
- 1ai上神奇动物合集.pdf VIP
原创力文档


文档评论(0)