用户行为大数据分析过程踩过的坑及解决方案课件.ppt

用户行为大数据分析过程踩过的坑及解决方案课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CASE-04 Streaming 走过的弯路 经验教训: ? Spark Streaming 连接 kafka 有两种方式 1. 有 receiver 2. 无 receiver (DirectStream) 对比 : a) 有 receiver 方式, revceiver 进程启动在分布式节点的一台机械 上, Streaming 消费的所有数据由该进程转发,效率低下。 b) 无 receiver 方式, Streaming 创建的 RDD Partition 和 Kafka Topic Partition 一一映射,即每个 RDD Partition 都有一个 Consumer 消费对应 Kafka Topic Partition 数据,性能较高。 ? 结合 Spark.streaming.kafka.maxRatePerPartition 参数(每秒钟从 kafka Partition 消费的数据),可解决问题。 2016 数据清洗 2016 年在完成集群迁移 , 架构调整之后 , 平台已经逐步接入 公司多条产品线 ( 材价产品线 , 造价产品线等 ) 行为数据 , 为 了进一步规范数据接入流程 , 降低数据接入成本 , 我们制定 数据埋点规范 , 平台加入了实时校验和转换组件 , 但是面对 多样化的行为数据 , 我们依然遇见各种脏数据 , 在接入和转 换过程中走了不少弯路 . CASE 05 数据清洗 背景 : 将收集上来的行为数据转换为 parquet 格式 处理流程 : 解析 Json 数据 ? 每天定时利用 python 脚本拉取本 地文本数据至 hive 仓库 ? 利用 Hive 自带的 Json 函数解析文 本数据 ? 利用 Hive 对 parquet 格式的 支持生成 parquet 外部表 结果 ? Hive 外部表 Parquet 文件供 spark 分析 文本数据 入 HIVE 仓库 转换 parquet 格式 CASE 05 数据清洗 面临问题 : 转换文本数据为 parquet 格式,部分记录被截断,数据不完整。 问题分析 : 行为数据 keywords 、 prjfullpath 字段出现 “ \\t XXX ” 字符串 解决方案 : CASE 05 数据清洗 面临问题 : 放大。该问题目前我只是找到了解决方案, 原因还在探索中 。 在行为数据转换为 parquet 格式的过程中,外挂主数据的过程中行为数据被 问题分析 : CASE 05 数据清洗 解决方案: CASE 05 数据清洗 经 验 教 Hive 文本表指定列分隔符和转义符时,要尽可 能避免指定的分割符和原始记录的字串冲突 数据进入 hive 仓库前,清洗掉 \t \n 等特殊字符 Hive 表关联条件,避免使用函数对条件字段进 行转换,尽可能的使用 string 类型 训 CASE 06 Hive Schema 无法识别 背景 : 为了减少查询数据量,加快查询速度,对 parquet 文件进行分区。 面临问题: 在 hive 中使用动态分区字段进行条件查询时,提示分区字段不存在。 CASE 06 Hive Schema 无法识别 分析问题 : CASE 06 Hive Schema 无法识别 解决方案: CASE 06 Hive Schema 无法识别 经 验 教 目前 hive1.2.0-1.2.1 动态分区会识别不到 parquet 中的分 区字段 hive 对 parquet 数据文件索引支持的不是特别好 训 关闭 hive 的索引 hive.optimize.index.filter 后正常 目前 hive 的索引对查询性能的提升有限 分享要点 01 平台发展历程 02 2015- 初步尝试 03 2016- 快速成长 04 2017- 初步成型 平台架构 -2017 主数据仓库 业务数据 业务数据 业务数据 数据集市 授权 客户 数据服务 授权 Informatica 客户 实名 用户 加密锁 用户 IO OLAP A z k a b a n Kafka 集群 HIVE Kafka01

文档评论(0)

精品大课件 + 关注
实名认证
内容提供者

专业类课件,PPT课件,ppt课件,专业类Word文档。只为能提供更有价值的文档。

1亿VIP精品文档

相关文档