- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实训8某化妆品在线商店的客户行为数据分析
一、实训目的与要求
1、综合使用SparkSQL语句进行数据分析。
2、灵活使用DataFrame数据操作的各种方法进行数据分析。
二、操作训练
1、现有一份某化妆品在线商店的客户行为数据集User-behavior.csv(数据文件在本章数据文件夹中),数据集中的字段及含义如下表所示。请根据以下需求,使用SparkSQL相关知识对数据集进行操作分析。
字段
含义
event_time
客户行为时间
event_type
客户行为类型
product_id
化妆产品ID
brand
化妆产品品牌
price
产品价格
user_id
客户ID
(1)请查看数据集数,并查看前5行数据情况。
操作结果截图+签名
(2)在这份数据集中,有多少客户对此线上商店进行了浏览?
操作结果截图+签名
(3)在这份数据集的时间段中,所有商品属于多少个品牌分类?
操作结果截图+签名
(4)这段时间中,每天卖出了多少商品?
操作结果截图+签名
(5)请根据客户行为数据,统计这段时间客户“view(浏览)”、“cart(加入购物车)”、“remove_from_cart(从购物车删除)”、“purchase(购买)”这几种行为的占比。
操作结果截图+签名
(6)除了无品牌以外,哪种品牌的化妆品被购买的数量最多?
操作结果截图+签名
2、利用题1的数据,使用SparkSQL中DataFrame的各种数据操作方法对数据进行查询分析,完成以下任务。
(1)了解各个产品的销售额情况,并查看销售额最高的产品。
操作结果截图+签名
(2)获取被浏览次数最多的产品ID。
操作结果截图+签名
(3)查看每个品牌的销售额情况,并查看销售额最高的化妆品品牌。
操作结果截图+签名
您可能关注的文档
- 大数据分析及应用项目教程(Spark SQL)(微课版) 课程教学大纲 、授课计划.doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 课程教学大纲 .doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 授课计划 .doc
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训1 Hadoop集群环境搭建.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训2 Spark集群部署与使用.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训3 Scala基础(一).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训4 Scala基础(二).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训6 售房网站的销售房屋情况.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训7 电商大数据分析与探索.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用.docx
文档评论(0)