- 1、本文档共116页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据探查数据可视化数据转换回归模型训练数据预测线性回归和逻辑回归预测参考书目《机器学习技术任务驱动式教程》模块4机器学习技术
目录波士顿房价预测糖尿病病期预测汽车购买预测小结习题四线性回归和逻辑回归预测第4章机器学习技术
数据housing.data记录了共计506条波士顿郊区的住房价值及其13个影响因素的信息。详细的字段描述见下表。1.1任务描述1波士顿房价预测字段字段类型允许为空标签?例子城镇人均犯罪率float否否0.00632住宅用地所占比例float否否18.0城镇中非住宅用地所占比例float否否2.31虚拟变量,用于回归分析int否否0环保指数float否否0.538每栋住宅的房间数float否否6.5751940年以前建成的自住单位的比例float否否65.2
1.1任务描述字段字段类型允许为空标签?例子距离5个波士顿的就业中心的加权距离float否否4.0900距离高速公路的便利指数int否否1每一万美元的不动产税率float否否296.0城镇中的教师学生比例float否否15.3城镇中的黑人比例float否否396.90地区中有多少房东属于低收入人群float否否4.98自住房屋房价中位数(也就是均价)float否是24.0接上1波士顿房价预测
1.1任务描述1)通过自住房屋城镇人均犯罪率(如0.00632)、住宅用地所占比例(如18.0)、城镇中非住宅用地所占比例(如2.31)等13个属性值,预测该自住房屋的均价。2)通过拟合度指标R2评价回归模型的拟合效果。任务目标1波士顿房价预测
1.2任务分解import方式引入依赖的模块可视化样本的空间分布、待测试样本和训练样本的空间关系依赖库导入数据探查数据可视化从探查数据内容开始,经过分析数据分布,使用逻辑回归模型找到标签和数据特征之间的关系,然后利用线性回归模型测试数据,通过模型拟合度R2评价模型。1波士顿房价预测检查样本分布、特征/标签类型、空值、重复行、属性相互关系
1.2任务分解转换Pandas类型到Numpy类型在已知样本上训练回归模型通过相关系数找到关系不明显的特征后删除,提高线性回归模型的预测准确率数据转换模型训练降维接上模型评估1波士顿房价预测根据测试集预测得到的label,跟真实label比较,计算预测准确率
1.3任务实施1.3.1依赖库导入步骤1:定义2级标题。##fontcolor=black依赖库导入/font按“SHIFT+Enter”,运行结果如下:1波士顿房价预测
1.3任务实施步骤2:导入依赖库。importpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltfromsklearnimportmodel_selectionfromsklearn.linear_modelimportLinearRegression按“SHIFT+Enter”,检查输出无异常。1波士顿房价预测
1.3任务实施1.3.2数据探查文件读入DataFrame对象后,需要观察不同标签的数据分布。步骤1:定义2级标题。##fontcolor=black数据探查/font按“SHIFT+Enter”,运行结果如下:1波士顿房价预测
1.3任务实施步骤2:读入数据集文件到DataFrame对象。names=[人均犯罪率,住宅用地比例,非住宅用地比例,虚拟变量,环保指数,住宅房间数,老住宅比例,就业中心距离,便利指数,不动产税率,师生比,黑人比例,房东收入比例,均价]df=pd.read_csv(C:/data/housing.data,header=None,sep=\s+,names=names)df.head()1波士顿房价预测
1.3任务实施1波士顿房价预测按“SHIFT+Enter”,运行结果如下:
1.3任务实施步骤3:数据描述。df.describe()1波士顿房价预测
1.3任务实施1波士顿房价预测人均犯罪率的均值为3.61,而中位数和最小值只有0.25和0.006,说明存在一些极大值变相地提高了平均值,类似的数据还有住宅用地所占比例等,因此可以后续用箱线图探究此字段中数值的合理性。按“SHIFT+Enter”,运行结果如下:
1.3任务实施1.3.3数据可视化与房价可能相关的相关特征比较多,利用图表能够更加直观地表示数据分布,这里使用Matplotlib绘制图表。1波士顿房价预测
1.3任务实施步骤1:定义2级标题。1波士顿房价预测##fontcolor=black数据可视化/fon
您可能关注的文档
- 数据库应用基础(Access 2016) 赵增敏 习题答案.docx
- 《机器学习技术任务驱动式教程》习题答案汇总 第1--10章 .docx
- 机器学习技术任务驱动式教程-课件 模块1 了解机器学习.pptx
- 机器学习技术任务驱动式教程-课件 模块2 机器学习开发环境安装及使用.pptx
- 机器学习技术任务驱动式教程-课件 模块3 基于K-最近邻的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块5 基于决策树的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块6 基于贝叶斯理论的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块7 基于支持向量机的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块8 基于K-均值的聚类.pptx
- 机器学习技术任务驱动式教程-模块9 基于集成学习的分类预测.pptx
文档评论(0)