基于spark的实时用户画像分析系统-汪飞-1027.doc

基于spark的实时用户画像分析系统-汪飞-1027.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Spark的实时用户画像分析系统 ?? 汪飞(优酷-大数据) ?? 2015.10.23 目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像 群体画像 游戏视频 教育资讯 家装 精准推荐 精准营销 ?? 实时 ?? 维度 ?? 任意群体 ?? 大数据量(TB) 目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 观看琅琊榜的 他们是网剧、 电视剧和娱 乐控 观众,投什么 广告呢? 不仅是美妆和母婴, 我们更爱学习 湖北、浙江、福建的 观众更加偏爱琅琊榜 展示图表为非真实数据,仅供演示 用户画像分析系统 退订的用户 是年龄特征? 订阅我的用 户是否为重 度用户? 订阅我的用 户喜欢哪些 专辑? 展示图表为非真实数据,仅供演示 用户画像分析系统 应用 资源 ?? 定位任意群体进行投放 ?? Spark集群 ?? 任意两个群体和差并交 CPU:200cores,RAM:700GB ?? 2台交互服务器 ?? 任意两个群体对比分析 CPU:22 cores,RAM:32GB ?? 实时投影任意观众群体 数据量 Benchmark ?? 3~10亿用户 ?? 筛选响应时间:2s ?? 数据量500G左右 ?? 群体合并:10~20s ?? 50多个画像维度 ?? 对比分析:15~20s ?? 5000多个标签 ?? 实时投影:7~20s 目录 用户画像 优酷用户画像系统 系统框架 实施方案与性能优化 计划与方向 用户画像分析系统 精准推荐 用户画像 Push DMP Projecon Filter Comparing Authorizaon Timed Task Cache Dataset Manager Updater Calculator Job Manager RDD Register Job Server Aggregator Filter Storage Join Merge Parser Code Generator RDD Tachyon Scheduler 目录 用户画像 优酷用户画像系统 系统框架 实施方案—交互式分析系统 计划与方向 交互式分析系统 给MapReduce 穿上SQL 我们得开源 Google Dremel 能不能不用 MapReduce mdrill Lucene是否可以 作分析? Impala MapReduce 有点慢了 Data Frame 我们做一个内存版 的Hive Dremel 要不直接内存吧 站在巨人的肩膀上 看得更远 PowerDrill 交互式分析系统 Column Oriented Storage 非常适合交 互式分析系统 MPP框架被多数框架采用 内存是实现秒级响应的关键点,用户 最大忍耐极限为15s Bitmap是筛选操作的利器(配合压缩技术) 编码(Diconary)以及压缩(Snappy)能 够带来空间节省和性能提升 目录 用户画像 优酷用户画像系统 系统框架 实施方案—分析引擎 计划与方向 Why Spark? l? RDD:全内存形式存储,支持多种压缩存储 l? API:灵活的框架设计,能够轻松实现定制功能 l? Map/Reduce:天生的合并框架 l? Job-Server:开源的异步Job管理框架 l? Shark/DataFrame:支持SQL以及交互式操作 l? Hadoop:兼容性很好 l? Apache Drill/Druid Analytics:集群资源要求比较多 高效筛选器(Filter) 筛选器是怎么执行的? DSL client 语义分析 执行模型 Benchmark Nest Expression Nest Expression JSON ANTLR ASM ASM Janino Janino SQL Scala Parser Code Generator Code Generator 逻辑表达式 逻辑表达式 Java Compiler Java Compiler 并发 CPU Cache Pipelined ?i?f ??Fetch Unit ?l?oop ??Decode Unit ?V? itual Calls ??Execute Unit ?D? ata Dependency ??Write Unit 目录 用户画像 优酷用户画像系统 系统框架 实施方案—存储 计划与方向 Column Oriented Storage Parquet File Column-Oriented Record-Oriented DocId Links- Name.Language.Code …… forward 10 20 en-us …… 20 40 u

您可能关注的文档

文档评论(0)

152****7770 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档