- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第10章基于大数据的电商精准营销《大数据技术基础教程》学习目标/Target掌握数据的预处理方法掌握数据分析与可视化方法章节概述/Summary随着互联网+的快速推进,电商已经深入了我们生活的方方面面。电商的快速兴起,旧的行销模式和营销理论不能满足新的经济模式。网络化的电商,不受地域限制,数据收集方便等特点,使精准化营销成为了可能。精准化营销有效率高、成本低等特点,被广泛的应用于大数据时代的电商营销中。本章主要介绍基于电商精准营销案例的数据预处理概述和数据探索与可视化。目录/Contents01数据预处理概述数据探索与可视化0210.1数据预处理概述10.1数据预处理概述10.1.1数据清洗数据清洗(Datacleaning)–对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。在大数据时代,数据量众多,数据信息质量不同,只有围绕这分析目的才能快速选择出有用的数据。电商一般数据资源比较丰富,所以数据处理是重中之重。所谓的数据处理就是选取目标数据,对数据进行清洗、集成、变换和规约。10.1数据预处理概述10.1.1数据清洗(1)数据选择在实际数据分析中,数据多杂乱,分析需要花费精力、资源和成本,因此我们选择数据需要有针对性,能正确反映业务需求。从业务和分析目的入手确定样本大小10.1数据预处理概述10.1.1数据清洗(2)数据清洗缺失值处理异常值判断10.1数据预处理概述10.1.1数据清洗(3)Python数据处理实例数据选择列变量处理要求:选取data数据中user_id,time,model_id,type,cate,brand列的变量;行变量处理要求:选取time在2016-02-01及以后的数据(包含2016-02-01)且type=6。10.1数据预处理概述10.1.1数据清洗(3)Python数据处理实例数据选择#coding:utf8importpandasaspd#导入pandas库importnumpyasnp#导入numpy库defchoose_data(data):#选择变量user_id,time,model_id,type,cate,brand,选取time在2016-02-01及以后的数据(包含2016-02-01)且type=6,数据类型如下:#user_idsku_idtimemodel_idtypecatebrand#02660791387782016-01-3123:59:02NaN18403#12660791387782016-01-3123:59:030.068403#2200719612262016-01-3123:59:07NaN1830#3200719612262016-01-3123:59:080.06830#4263587723482016-01-3123:59:08NaN15159##########Begin##########data=data[[user_id,time,model_id,type,cate,brand]].copy()data=data[(data[type]==6)(pd.to_datetime(data[time])=pd.to_datetime(2016-02-01))]##########End##########returndata10.1数据预处理概述10.1.1数据清洗defsample_data(data):#使用pd.DataFrame.sample函数进行随机抽样,不放回的随机抽取5000个样本,数据结构如下:#user_idsku_idtimemodel_idtypecatebrand#02660791387782016-01-3123:59:02NaN18403#12660791387782016-01-3123:59:030.068403#2200719612262016-01-3123:59:07NaN1830#3200719612262016-01-3123:59:080.06
您可能关注的文档
- 大数据技术基础教程 课件 第1章 绪论.pptx
- 大数据技术基础教程 课件 第2章 分布式计算编程基础.pptx
- 大数据技术基础教程 课件 第3章 大数据处理框架Apache Hadoop.pptx
- 大数据技术基础教程 课件 第4章 分布式文件系统HDFS.pptx
- 大数据技术基础教程 课件 第5章 分布式数据库HBase.pptx
- 大数据技术基础教程 课件 第6章 分布式计算框架MapReduce.pptx
- 大数据技术基础教程 课件 第7章 数据仓库Hive.pptx
- 大数据技术基础教程 课件 第8章 流计算Spark Streaming.pptx
- 大数据技术基础教程 课件 第9章 数据可视化.pptx
- 大数据技术基础教程 课件 第11章 好友推荐案例分析.pptx
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)