- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第11章 综合案例2:影评大数据分析;11.2 案例数据及建表;11.1 案例需求分析;案例数据经过ETL,符合数据处理的要求,在此基础上创建数据仓库表并向其中导入数据。;现有3个数据文件。
1.users.txt
users.txt共有6040条记录数据,文件大小为131.2KB。对应字段及其数据类型分别为userid Bigint、sex String、age Int、occupation String、zipcode String。对应字段中文描述解释分别为用户ID、性别、年龄、职业、邮政编码。
2.movies.txt
movies.txt共有3883条记录数据,文件大小为167.4KB。对应字段及其数据类型分别为movieid Bigint、moviename String、movietype String,对应字段中文描述解释分别为电影ID、电影名字、电影类型。
3.ratings.txt
ratings.txt共有1000209条记录数据,文件大小为23.5MB。对应字段及其数据类型分别为userid Bigint、movieid Bigint、rate Double、times String,对应字段中文描述解释分别为用户ID、电影ID、评分、评分时间戳。;1.创建一个数据仓库movie;3.创建t_movie表及导入数据;11.2.3 基本信息查询;基本信息查询;11.3 数据统计分析; 统计评分次数最多的10部电影,并给出评分次数(电影名、评分次数)。
(1)按照电影名进行分组统计,求出每部电影的评分次数并按照评分次数降序排序,保存在表answer2中:
create table answer2 as
select a.moviename as moviename,count(a.moviename) as total
from t_movie a join t_rating b on a.movieid=b.movieid
group by a.moviename
order by total desc
limit 10;; ;11.3.2 性别当中评分最高的10部电影;(2)查询表answer3_F:
select sex,name,round(avgrate,2),total from answer3_F;
OK
Sex name c2 total
F Close Shave, A (1995) 4.64 180
F Wrong Trousers, The (1993) 4.59 238
F Sunset Blvd. (a.k.a. Sunset Boulevard) (1950) 4.57 117
F Wallace Gromit: The Best of Aardman Animation (1996) 4.56 103
F Schindlers List (1993) 4.56 615
F Shawshank Redemption, The (1994) 4.54 627
F Grand Day Out, A (1992) 4.54 132
F To Kill a Mockingbird (1962) 4.54 300
F Creature Comforts (1990) 4.51 72
F Usual Suspects, The (1995) 4.51 413;(3)创建表answer3_M???保存男性当中评分最高的10部电影(性别、电影名、影评分),要求评论次数大于或等于50次:
create table answer3_M as
select M as sex, c.moviename as name, avg(a.rate) as avgrate, count(c.moviename) as total
from t_rating a join t_user b on a.userid=b.userid
join t_movie c on a.movieid=c.movieid
where b.sex=M
group by c.moviename
having total = 50
order by avgra
您可能关注的文档
- 《Hive数据仓库案例教程》教学课件 第1章 Hive数据仓库基础.pptx
- 《Hive数据仓库案例教程》教学课件 第2章 Hive环境搭建.pptx
- 《Hive数据仓库案例教程》教学课件 第3章 Hive基础.pptx
- 《Hive数据仓库案例教程》教学课件 第4章 Hive数据定义.pptx
- 《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pptx
- 《Hive数据仓库案例教程》教学课件 第6章 HQL查询.pptx
- 《Hive数据仓库案例教程》教学课件 第7章 Hive函数.pptx
- 《Hive数据仓库案例教程》教学课件 第8章 Hive数据压缩.pptx
- 《Hive数据仓库案例教程》教学课件 第9章 Hive优化.pptx
- 《Hive数据仓库案例教程》教学课件 第10章 综合案例1:广电大数据分析.pptx
最近下载
- 贵州省贵阳市白云区2025年初中毕业生学业水平模拟试卷(二)语文试题(含答案).docx VIP
- 企业文化建设与落地实践.pptx VIP
- (2025修订版)CAAC无人机理论考试题库(含答案).docx
- 光电化学课件-电化学研究方法-第一讲-电化学热力学.pdf VIP
- 《不抱怨的世界》读书分享课件PPT课件.pptx
- PEP人教版小学英语三年级下册unit3 At the zoo A Let‘s learn 教案.pdf VIP
- 《AI人工智能咖啡系统》.pdf VIP
- 《第八课 身体红绿灯》参考课件.pptx VIP
- 《安乐死与伦理》课件.ppt VIP
- 2025年部编版语文四年级下册全册教案(简案).pdf VIP
文档评论(0)