Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析 .pptx

Spark大数据分析实务 课件 项目4 基于Spark SQL实现广告流量检测数据探索分析 .pptx

  1. 1、本文档共108页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于SparkSQL实现广告流量检测数据探索分析知识准备

教学目标知识目标了解SparkSQL框架的功能及运行过程。了解SparkSQL与Shell交互。掌握SparkSQL的可编程数据模型DataFrame的创建、查询等操作方法。

教学目标技能目标能够配置SparkSQLCLI,提供SparkSQL与Shell交互环境。能够通过不同数据源创建DataFrame。能够实现DataFrame数据及行列表的查询操作。

教学目标素质目标具备钻研刻苦的精神,通过学习SparkSQLCLI,能够独立完成配置SparkonHive环境。具备独立思考的学习能力,通过学习编程数据模型DataFrame,掌握多种方式创建DataFrame。具备良好的创新能力,通过学习DataFrame的查询操作,掌握探索广告流量检测数据的分析能力。

思维导图

项目背景数据探索分析可通过对数据的整理、清洗、可视化和统计分析等手段,发现数据中的模式、趋势和关联性,从而帮助人们理解数据背后的信息和规律,为决策提供支持和指导。为建设更高水平的平安中国,需坚持以网络安全为基础等内容的新安全格局,强化国家战略科技力量,保障新发展格局。广告数据监测公司希望通过SparkSQL技术实现广告流量检测数据探索分析,主要从数据记录数、数据缺失值和字段特征进行探索,了解广告流量检测数据的整体情况与大体质量,为后续数据预处理提供处理凭证,并且为数据挖掘分析结论有效性和准确性奠定基础。

项目目标根据存储在Hive中的广告流量检测数据,使用SparkSQL中的SQL函数进行读取、查询、探索分析广告流量检测数据。

目标分析读取Hive中的表并创建DataFrame对象。简单查询DataFrame数据,简单分析广告流量检测数据的记录数及缺失值等情况。利用分组查询函数,探索分析广告流量检测数据中的日流量特征。利用排序查询函数,探索分析广告流量检测数据中的IP地址的访问次数特征。利用分组查询函数,探索分析广告流量检测数据中违规流量数据特征。

认识SparkSQL框架创建DataFrame对象查看DataFrame数据掌握DataFrame行列表查询操作

认识SparkSQL框架SparkSQL在Spark内核(Core)基础上提供了对结构化数据的处理。所谓结构化数据,就是每条记录共用的已知的字段集合。当数据符合条件时,SparkSOL就会针对数据的读取和查询变得更加简单高效。

SparkSQL简介SparkSQL是一个用于处理结构化数据的框架,可被视为一个分布式的SQL查询引擎,提供了一个抽象的可编程数据模型DataFrame。SparkSQL框架的前身是Shark框架,由于Shark需要依赖于Hive而制约了Spark各个组件的相互集成,所以Spark团队提出了SparkSQL项目。SparkSQL借鉴了Shark的优点同时摆脱了对Hive的依赖性。相对于Shark,SparkSQL在数据兼容、性能优化、组件扩展等方面更有优势。

SparkSQL简介SparkSQL提供了以下三大功能,如下。

SparkSQL简介具体来说,SparkSQL提供了以下三大功能,如下。SparkSQL可以从各种结构化数据源(如JSON、Hive、Parquet等)中读取数据。SparkSQL不仅支持通过spark-shell在Spark程序内使用SQL语句进行数据查询,也支持类似商业智能软件Tableau外部工具、应用程序等通过标准数据库连接器(JDBC/ODBC)连接SparkSQL进行查询。当在Spark程序内使用SparkSQL时,SparkSQL支持SQL与常规的Python/Java/Scala代码高度整合,包括连接RDD与SQL表、公开的自定义SQL函数接口等。

SparkSQL简介为了实现以上的功能,SparkSQL提供了一种特殊的RDD,叫作SchemaRDD。SchemaRDD是存放Row对象的RDD,每个Row对象代表一行记录。SchemaRDD还包含记录的结构信息(即数据字段)。SchemaRDD看起来和普通的RDD很像,但是在内部,SchemaRDD可以利用结构信息更加高效地存储数据。

SparkSQL简介此外,SchemaRDD还支持RDD上所没有的一些新操作,如运行SQL查询。SchemaRDD可以从外部数据源创建,也可以从查询结果或普通RDD中创建。从Spark1.3.0版本开始,SchemaRDD更名为DataFrame。

SparkSQL简介SparkSQL的运行过程如图所示。

SparkSQL简介DataFrame是一个分布式的Row对象的数据集合,该数据集合提供了由列组成的详细模式信息,并且DataFr

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档