- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE12
PAGE12
PAGE11
PAGE11
课题
分析二手房数据
课时
2课时(90min)
教学目标
知识目标:
(1)熟悉数据仓库分层设计的方法
(2)掌握Hive数据定义的相关知识
(3)掌握Hive数据导入与导出的相关知识
(4)掌握Hive数据查询的相关知识
(5)掌握Hive函数的相关知识
(6)掌握Hive性能优化的相关知识
技能目标:
(1)能够使用数据仓库与Hive的相关知识独立构建二手房数据仓库,并查询和分析二手房数据
(2)能够举一反三,参照二手房数据的分析过程分析其他数据
素养目标:
懂得团结合作能让工作事半功倍的道理
教学重难点
教学重点:使用数据仓库与Hive的相关知识构建二手房数据仓库,并查询和分析二手房数据
教学难点:举一反三,参照二手房数据的分析过程分析其他数据
教学方法
案例分析法、问答法、讨论法、讲授法
教学用具
电脑、投影仪、多媒体课件、教材
教学过程
主要教学内容及步骤
课前任务
【教师】布置课前任务,和学生负责人取得联系,让其提醒同学通过APP或其他学习软件,完成课前任务
请大家了解Hive数据仓库技术的应用案例。
【学生】完成课前任务
考勤
【教师】使用APP进行签到
【学生】班干部报请假人员及原因
问题导入
【教师】提出以下问题:
设计数据仓库的第一步应做什么?
【学生】思考、举手回答
传授新知
【教师】通过学生的回答引入要讲的知识,介绍设计二手房数据仓库、定义二手房数据仓库的存储结构、向二手房数据仓库中导入数据、查询并分析二手房数据、导出二手房数据的相关知识
8.1设计二手房数据仓库
?【教师】利用多媒体展示“二手房数据文件‘house.txt’的部分内容”图片(详见教材),并进行讲解
二手房数据文件“house.txt”中包含区、地铁站、户型、面积(单位:平方米)、楼层、房屋总价(单位:万元)、房屋单价(单位:元/平方米)和是否近地铁等信息,如图所示。
8.1.1需求分析
为了从不同角度分析北京市二手房的市场行情,二手房信息网站需要构建一个二手房数据仓库。使用该数据仓库,二手房信息网站可以结合不同的用户需求查询和统计以下二手房数据,并对查询和统计的结果进行分析,从而为用户提供二手房的信息,并帮助用户挑选合适的房源。
(1)统计北京市内各区二手房的平均房价和在售数量。
(2)查询北京市某区内二手房平均房价排名前3的房屋户型。
(3)查询北京市某区内二手房在售数量排名前3的房屋户型。
(4)统计北京市某区内不同面积二手房的平均房价。
(5)统计北京市某区内不同面积二手房的在售数量。
(6)查询北京市某区内二手房平均房价最高的房屋楼层。
(7)查询北京市某区内二手房在售数量最多的房屋楼层。
(8)查询北京市某区内近地铁和非近地铁二手房的平均房价。
(9)查询北京市某区内近地铁和非近地铁二手房的在售数量。
8.1.2数据仓库分层设计
?【教师】利用多媒体展示“数据仓库分层的详细设计”图片(详见教材),并进行讲解
结合需求分析结果和数据仓库分层架构将数据仓库分为源数据层、数据仓库层和应用层,详细设计如图所示。
下面设计数据仓库的存储结构,设计过程中注意选择合适的表存储格式和数据压缩格式,有意识地优化Hive性能。
?【教师】利用多媒体展示“二手房数据表houses_ods_table的结构”表格,并进行讲解
为了防止原始数据丢失无法找回,将源数据层的表创建为外部表,存储在HDFS的“/user/hive_data/house.db/house_ods”目录中;为了方便将本地文件系统中的数据导入源数据层的表中,将该表的存储格式设置为TextFile。源数据层的二手房数据表houses_ods_table存储在数据库houses_ods_database中,该表的结构如表所示。
二手房数据表houses_ods_table的结构
字段名称
字段类型
描述
region
STRING
区。其中,CPQ代表昌平区;CYQ代表朝阳区;DXQ代表大兴区;DCQ代表东城区;FSQ代表房山区;FTQ代表丰台区;HDQ代表海淀区;MTGQ代表门头沟区;SJSQ代表石景山区;SYQ代表顺义区;TZQ代表通州区;XCQ代表西城区;MYQ代表密云区
subway_station
STRING
地铁站,表示离房屋最近的地铁站
type
STRING
户型
area
DOUBLE
面积,单位为平方米
floor_level
STRING
楼层,包括底层、低楼层、中楼层、高楼层、顶层和地下室
total_price
INT
房屋总价,单位为万元
unit_price
INT
房屋单价,表示每平方米的价钱,单位为元/平方米
distance
STRING
是否近地铁,包
您可能关注的文档
- 《Hive数据仓库技术与应用案例教程》教案 项目2 Hive基础.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目3 Hive数据定义.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目4 Hive数据导入与导出.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目5 Hive数据查询.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目6 Hive函数.docx
- 《Hive数据仓库技术与应用案例教程》教案 项目7 Hive性能优化.docx
- 《HBase数据库应用案例教程》教案 项目1 HBase数据库基础.docx
- 《HBase数据库应用案例教程》教案 项目3 HBase客户端API.docx
- 《HBase数据库应用案例教程》教案 项目2 HBase Shell.docx
- 《HBase数据库应用案例教程》教案 项目4 HBase客户端API进阶.docx
- 讲稿:深入理解“五个注重”把握进一步深化改革统筹部署以钉钉子精神抓好落实.pdf
- 副市长在2025年全市医疗工作会议上的讲话.docx
- 2025年市县处级以上党委(党组)理论学习中心组专题学习计划.docx
- 市民族宗教事务局党组书记、局长2024年度民主生活会个人对照检视发言材料.docx
- 烟草局党组书记2024年度抓基层党建工作述职报告.docx
- (汇编)学习2025年全国教育工作会议精神心得体会发言心得感悟.pdf
- 汇编学习领会在二十届中纪委四次全会上的重要讲话精神心得体会.pdf
- 在2025年镇安全生产、消防安全和生态环境保护第一次全体会议上的讲话提纲.docx
- 书记干部座谈会上的讲话+纪委全会上的讲话.pdf
- 党课:从毛泽东诗词中感悟共产党人初心使命.docx
最近下载
- 吸气同步筛孔雾化相结合的高流量氧疗设备.pdf VIP
- 原子能院学位论文格式模板(18页).doc
- 2025年征兵的心理测试题库及答案 .pdf VIP
- 基于人工智能的交互式护理床设计.pdf VIP
- 重庆市第一中学校2024-2025学年高三上学期12月月考英语试题(含答案).docx VIP
- 2024年华医网继续教育基于人文护理理念下的压疮护理答案.docx VIP
- 5.5 有趣的算式(课件)2024-2025学年度北师大版数学一年级下册.pptx VIP
- Newzoo:2024年全球游戏市场报告(英文版).pdf VIP
- 脑血管造影术患者的护理查房课件.pptx VIP
- 肺部感染护理查房.pptx
文档评论(0)