- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Spark的实时用户画像分析系统
?? 汪飞(优酷-大数据)
?? 2015.10.23
目录
用户画像
优酷用户画像系统
系统框架
实施方案与性能优化
计划与方向
用户画像
群体画像
游戏视频
教育资讯
家装
精准推荐
精准营销
?? 实时
?? 维度
?? 任意群体
?? 大数据量(TB)
目录
用户画像
优酷用户画像系统
系统框架
实施方案与性能优化
计划与方向
用户画像分析系统
观看琅琊榜的
他们是网剧、
电视剧和娱
乐控
观众,投什么
广告呢?
不仅是美妆和母婴,
我们更爱学习
湖北、浙江、福建的
观众更加偏爱琅琊榜
展示图表为非真实数据,仅供演示
用户画像分析系统
退订的用户
是年龄特征?
订阅我的用
户是否为重
度用户?
订阅我的用
户喜欢哪些
专辑?
展示图表为非真实数据,仅供演示
用户画像分析系统
应用
资源
?? 定位任意群体进行投放
?? Spark集群
?? 任意两个群体和差并交
CPU:200cores,RAM:700GB
?? 2台交互服务器 ?? 任意两个群体对比分析
CPU:22 cores,RAM:32GB
?? 实时投影任意观众群体
数据量 Benchmark
?? 3~10亿用户
?? 筛选响应时间:2s
?? 数据量500G左右
?? 群体合并:10~20s
?? 50多个画像维度
?? 对比分析:15~20s
?? 5000多个标签
?? 实时投影:7~20s
目录
用户画像
优酷用户画像系统
系统框架
实施方案与性能优化
计划与方向
用户画像分析系统
精准推荐 用户画像 Push DMP
Projecon Filter Comparing
Authorizaon Timed Task Cache
Dataset Manager Updater Calculator
Job Manager RDD Register Job Server
Aggregator Filter Storage
Join Merge Parser
Code
Generator
RDD Tachyon
Scheduler
目录
用户画像
优酷用户画像系统
系统框架
实施方案—交互式分析系统
计划与方向
交互式分析系统
给MapReduce
穿上SQL
我们得开源
Google Dremel
能不能不用
MapReduce
mdrill
Lucene是否可以
作分析?
Impala
MapReduce
有点慢了
Data
Frame
我们做一个内存版
的Hive
Dremel
要不直接内存吧
站在巨人的肩膀上
看得更远
PowerDrill
交互式分析系统
Column Oriented Storage 非常适合交 互式分析系统
MPP框架被多数框架采用
内存是实现秒级响应的关键点,用户 最大忍耐极限为15s
Bitmap是筛选操作的利器(配合压缩技术)
编码(Diconary)以及压缩(Snappy)能 够带来空间节省和性能提升
目录
用户画像
优酷用户画像系统
系统框架
实施方案—分析引擎
计划与方向
Why Spark?
l? RDD:全内存形式存储,支持多种压缩存储
l? API:灵活的框架设计,能够轻松实现定制功能
l? Map/Reduce:天生的合并框架
l? Job-Server:开源的异步Job管理框架
l? Shark/DataFrame:支持SQL以及交互式操作
l? Hadoop:兼容性很好
l? Apache Drill/Druid Analytics:集群资源要求比较多
高效筛选器(Filter)
筛选器是怎么执行的?
DSL
client 语义分析 执行模型 Benchmark
Nest Expression
Nest Expression
JSON ANTLR
ASM
ASM
Janino
Janino
SQL
Scala Parser
Code Generator Code
Generator
逻辑表达式 逻辑表达式
Java Compiler
Java
Compiler
并发
CPU Cache
Pipelined
?i?f ??Fetch Unit
?l?oop ??Decode Unit
?V? itual Calls ??Execute Unit
?D? ata Dependency ??Write Unit
目录
用户画像
优酷用户画像系统
系统框架
实施方案—存储
计划与方向
Column Oriented Storage
Parquet File Column-Oriented
Record-Oriented
DocId Links- Name.Language.Code ……
forward
10 20 en-us ……
20 40 u
您可能关注的文档
- 琥珀酸脱氢酶抑制剂的开发.doc
- 互联网时代隐私保护-cisp运营中心沈传宁.doc
- 花色苷的结构稳定性与降解机制研究进展_孙建霞.doc
- 华大转录组测序内部培训资料.doc
- 花语大全(配图).doc
- 华硕a68hmk用户手册.doc
- 华天合金丝封装简介.doc
- 华为hcia-iotv10题库答案解析.doc
- 华为项目管理10大模板(可直接套用非常实用).doc
- 化工过程分析与综合习题答案.doc
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 英语丨天一大联考安徽省2025届高三12月联考英语试卷及答案.docx VIP
- 北京师范大学《艺术概论》2023-2024学年第一学期期末试卷.doc VIP
- 人教版八年级上册英语 Units 1-5单元复习测试卷(Word版,含答案).docx VIP
- 全国新高考:历史重点基础知识点大全.doc VIP
- 2025年人工智能在地质勘探领域的应用分析及未来五到十年行业趋势报告.docx
- 法医学图鉴 _原创文档.pdf VIP
- 北京师范大学《劳动教育实践》2022-2023学年第一学期期末试卷.doc VIP
- 第3单元单元活动 学用地形图探究地貌特征课件(24张PPT).pptx VIP
- 雨污分流施工规定合同书文本(2025版).docx VIP
- 施工电梯拆除技术交底 .pdf VIP
原创力文档


文档评论(0)