大数据解析与应用导论 课件 第10章 案例分析.pptx

大数据解析与应用导论 课件 第10章 案例分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据解析与应用导论 Introduction to Big Data Analytics and Application 第十一章 案例分析 二手车交易价格预测1.糖尿病的血糖预测2.工业蒸汽量预测3.4.双盲降噪自编码器实现降噪5.心电数据分析 11.1 二手车交易价格预测 数据由Datawhale提供,是来自某交易平台的二手车交易记录。每条记录包括30项属性,以及交易价格price。数据量:15w条训练集数据,5w条测试集数据。目标:输入样本属性,预测该样本的交易价格 (本质是常规的回归问题)数据中有含义不明的特征训练集数据有,测试集数据没有(预测对象)注意范围限制赛题链接:/competition/entrance/231784/introduction(1)问题背景 11.1 二手车交易价格预测(2)整体思路40%工作量20%工作量交叉构造特征筛选数据分析与预处理特征工程单模型训练+调参模型融合40%工作量数据概览纵向清洗异常值缺失值数据建模的工作量并不算大,但相对的,数据处理是极为关键的步骤! 11.1 二手车交易价格预测(3)数据概览连续型变量类别型变量连续型变量在训练集与测试集上的分布情况大致相同,降低了任务难度部分样本的 power 为0或超出了600,此处视为异常值训练集上的 price 等变量具有明显的长尾分布特点,对数化后的效果会更好seller 和 offerType 取值不变,可直接剔除 11.1 二手车交易价格预测(4)异常值处理以 power 属性为例:题中限制 power 范围 [ 0, 600 ],但实际数据总有例外……等于0:平均值填充大于600:截断至600当然,也可以认为 power 为 0 代表的是某种特殊汽车(电动汽车之类),从而不对 0 做处理。 11.1 二手车交易价格预测(5)缺失值填充缺失数据概览多分类字段:采用众数填充车身类型 bodyType燃油类型 fuelType0-1 分类字段:采用 0.5 填充变速箱类型 gearbox是否有损坏 notRepairedDamage白线代表样本特征缺失 11.1 二手车交易价格预测(6)特征工程原始数据预处理第一期特征工程第二期特征工程特征选择特征选择平均值编码PCA降维树模型数据线性、nn模型数据第一期特征工程:实名变量处理、筛选第二期特征工程:匿名变量交叉、筛选模型不同,对数据的要求也不同 11.1 二手车交易价格预测(6)特征工程实名变量处理:匿名变量交叉:最大值、最小值中位数平均值标准差……二者相加 相乘 11.1 二手车交易价格预测(7)特征筛选经过特征工程,生成了许多新的特征,需要从中挑选出真正有用的特征。相关分析:剔除相关系数高的二者间的交叉特征重要性检验:利用一些模型的重要性排序功能(如LightGBM),剔除重要性低的特征 11.1 二手车交易价格预测(8)数据建模采用多模型按权重加和的方法,对多个模型的结果进行集成。线性模型树模型神经网络LassoElasticNetXGBoostLightGBMCatBoostRandomForest简单MLPStackingStackingMixing模型单模型十折验证线下MAE单模型训练耗时Lasso1000+1minElasticNet1000+1minRandomForest550.2110minXGBoost520.762hLightGBM441.994~6hCatBoost430.897~9hMLP414.782hStacking+Mix412.56/? 11.1 二手车交易价格预测(9)小结数据清洗:数据的预处理,消除缺失数据和异常数据的影响。特征工程:直接影响了最终模型的精度,是数据处理的重要环节。模型融合:“集思广益”,能够一定程度上提高最终结果的准确率。数据分析与预处理特征工程融合模型建立 大数据解析与应用导论 Introduction to Big Data Analytics and Application 第十一章 案例分析 二手车交易价格预测1.糖尿病的血糖预测2.工业蒸汽量预测3.4.双盲降噪自编码器实现降噪5.心电数据分析 随着社会的发展和人们生活水平的提高,人们的生活方式和饮食习惯有了较大的改变,越来越多的人患上了糖尿病。 糖尿病按病因可分为1型糖尿病(Type 1 diabetes mellitus, T1DM)、2型糖尿病( Type 2 diabetes mellitus, T2DM )、特殊类型糖尿病和妊娠期糖尿病( Gestational diabetes mellitus, GDM )。 血糖预测是用来血糖控制的桥梁,对于未来的血糖管理起到重要的作用。11.2 糖尿病的血糖预测(1)

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档