- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
淘宝海量数据产品技术架构
张轩丞(朊春)
淘宝网-数据平台与产品部
关于
□ 张轩丞(朊春)
• 淘宝数据平台与产品部(杭州)
• vi党,脚本语言爱好者
• 关注NodeJS ,cnode社区组织者乊一
• pengchun@
• :我是aleafs
数据平台与产品
搜索、浏览、收藏、交易、评价...
数据
淘宝网
淘宝卖家
供应商 用户 产品
消费者
一些数字
□ 淘宝主站: □ 数据产品:
• 30亿庖铺、宝贝浏览 • 50G统计汇总结果
• 10亿计的在线宝贝数 • 千万量级数据查询请求
• 千万量级交易笔数 • 平均20.8ms的响应时间(6月1日)
海量数据带来的挑战
□ 计算
• 计算的速度
• 处理吞吐量
□ 存储
• 存储是为了更方便地查询
• 硬盘、内存的成本
□ 查询
• “大海捞针”
• 全“表”扫描
架构总览
数
据 主站备库 RAC 主站日志
源
DataX / DbSync / TimeTunnel
计
算 Hadoop集群 / 云梯 实时流数据
层
1500节点,每日40000 JOB ,处理数据1.5PB ,凌晨2点结束,结果20T
存
储 MyFOX Prom
层 查
询 数据中间层 / glider
层
产 数据魔方 淘宝指数 开放API
品
今天的话题
□ 关系型数据库仍然是王道
□ NoSQL是SQL的有益补充
□ 用中间层隔离前后端
□ 缓存是系统化的工程
关系型数据库仍然是王道
关系型数据库
SELECT IF(INSTR(f.keyword, ) 0,
□ 有成熟稳定的开源产品 UPPER(TRIM(f.keyword)),
□ SQL有较强的表达能力 CONCAT(b.brand_name,
,UPPER(TRIM(f.keyword)))) AS f0,
• 只存储中间状态的数据 SUM(f.search_num) AS f1,
• 查询时过滤、计算、排序 ROUND(SUM(f.search_num) / AVG(f.uv),
2) AS f3
□ 数据产品的本质 FROM dm_fact_keyword_brand_d f
• 拉关系 INNER JOIN dim_brand b ON f.keyword_brand_id
= b.brand_id
• 做计算
您可能关注的文档
最近下载
- 通信技术-使用Cypress需要避免的5个E2E测试错误(图文).pdf VIP
- 2025年小学一年级新生家长会ppt课件(优质ppt).pptx VIP
- 中国信通院2025人工智能高质量数据集建设指南74页.pdf VIP
- 2025-2026学年小学音乐三年级上册(2024)苏少版(2024)教学设计合集.docx
- 新征程,'心'启航——2025年秋学期开学第一课收心班会.pptx VIP
- Unit 1 How can I get there? PartA(说课稿)-2024-2025学年人教PEP版英语六年级上册[001].docx VIP
- 良好农业规范GAP记录表格.pdf VIP
- 2025年工会相关法律法规知识竞赛试题.doc VIP
- 高等土力学李广信22应力和应变.pptx VIP
- 消失模铸造工艺技术的创新与生产实践.pdf VIP
文档评论(0)