网站大量收购独家精品文档,联系QQ:2885784924

csdn大数据应用大会ppt——09-赵昆:淘宝海量数据技术.pdf

csdn大数据应用大会ppt——09-赵昆:淘宝海量数据技术.pdf

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
csdn大数据应用大会ppt——09-赵昆:淘宝海量数据技术

淘宝海量数据产品技术 数据产品赵昆 11年11月26 日星期六 WHO AM I • 赵昆 (淘宝花名:空无) • 淘宝网 - 数据平台与产品部 - 数据产品 • 热爱技术、热爱数据、热爱生活 • 果粉、G粉 • 微博: @此处空无⼀人 11年11月26 日星期六 误区 • 淘宝是一家电子商务公司 • 数据越多越值钱 • 海量只是数据量更大 • 云计算只是一个概念 11年11月26 日星期六 传统海量数据产品误区 •只关注分析处理性能,不关注数据查询性能 •大型商业产品更好 •Oracle/GreenPlum可以解决大多数问题 •IBM/EMC •开源产品更好 • Hadoop可以解决一切问题 • Hadoop成本更低 •数据展现不重要 11年11月26 日星期六 大纲 •大数据在淘宝的挑战 •分布式存储计算 •实时计算 •实时流处理 •数据可视化 •数据产品实践 11年11月26 日星期六 大 数 据 在 淘 宝 的 挑 战 11年11月26 日星期六 淘宝规模 PV 20亿 商品数 8亿+ 用户数 4.4亿 品牌数 8万+ SPU 334万 每分钟销售商品 4.8万件 件数 高峰日成交金额 52亿元 11年11月26 日星期六 淘宝数据特点 • 数据量大 • 内容多样 • 日志型数据 • 文本数据 • 关系型数据 • 维度丰富 • 涵盖近100个不同行业的商品维度,五级商品类目体系 • 近80000个品牌 • 商品维度+卖家维度+买家维度 • 源数据质量不高 • 非法交易 • 恶意评价 • 用于自定义属性 11年11月26 日星期六 挑战 •20PB 总量 •900TB 每天计算扫描数据量 •月增1.5P • 日增0.06P •高峰处理数据量:30G/s • ... 11年11月26 日星期六 挑战 •数据的商业模式不清楚,缺乏足够的业务支撑 •海量数据处理的基础技术需要大量的研发投入 •数据安全机制非常复杂,还要兼顾效率 •开放的同时,需要防止数据被恶意爬取 •基础设施的建设周期较长,可能赶不上业务的变化 •数据自身变化演进,数据更新非常困难 11年11月26 日星期六 传统的

文档评论(0)

maxmin + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档