- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
csdn大数据应用大会ppt——09-赵昆:淘宝海量数据技术
淘宝海量数据产品技术
数据产品赵昆
11年11月26 日星期六
WHO AM I
• 赵昆 (淘宝花名:空无)
• 淘宝网 - 数据平台与产品部 - 数据产品
• 热爱技术、热爱数据、热爱生活
• 果粉、G粉
• 微博:
@此处空无⼀人
11年11月26 日星期六
误区
• 淘宝是一家电子商务公司
• 数据越多越值钱
• 海量只是数据量更大
• 云计算只是一个概念
11年11月26 日星期六
传统海量数据产品误区
•只关注分析处理性能,不关注数据查询性能
•大型商业产品更好
•Oracle/GreenPlum可以解决大多数问题
•IBM/EMC
•开源产品更好
• Hadoop可以解决一切问题
• Hadoop成本更低
•数据展现不重要
11年11月26 日星期六
大纲
•大数据在淘宝的挑战
•分布式存储计算
•实时计算
•实时流处理
•数据可视化
•数据产品实践
11年11月26 日星期六
大 数 据 在 淘 宝 的 挑 战
11年11月26 日星期六
淘宝规模
PV 20亿
商品数 8亿+
用户数 4.4亿
品牌数 8万+
SPU 334万
每分钟销售商品 4.8万件
件数
高峰日成交金额 52亿元
11年11月26 日星期六
淘宝数据特点
• 数据量大
• 内容多样
• 日志型数据
• 文本数据
• 关系型数据
• 维度丰富
• 涵盖近100个不同行业的商品维度,五级商品类目体系
• 近80000个品牌
• 商品维度+卖家维度+买家维度
• 源数据质量不高
• 非法交易
• 恶意评价
• 用于自定义属性
11年11月26 日星期六
挑战
•20PB 总量
•900TB 每天计算扫描数据量
•月增1.5P
• 日增0.06P
•高峰处理数据量:30G/s
• ...
11年11月26 日星期六
挑战
•数据的商业模式不清楚,缺乏足够的业务支撑
•海量数据处理的基础技术需要大量的研发投入
•数据安全机制非常复杂,还要兼顾效率
•开放的同时,需要防止数据被恶意爬取
•基础设施的建设周期较长,可能赶不上业务的变化
•数据自身变化演进,数据更新非常困难
11年11月26 日星期六
传统的
您可能关注的文档
- 008 浪潮王峰---大数据开启行业应用新浪潮.pdf
- 08.华科大学武昌分校-大数据环境下信息服务创新实践(罗源).pdf
- 17颗脑袋的大数据碰撞ok.pdf
- 20世纪初中国的女权话语与文学中的女性想象.pdf
- 20招搞定微信营销——微商必学.pdf
- 032 vmware为大数据应用铺平道路.pdf
- 033 高速网络infiniband加速大数据应用.pdf
- 041 用于大数据可视化的sdn 技术.pdf
- 42污水过滤处理工程技术规范.pdf
- 042 大数据时代的网络基础设施演进.pdf
- 注册验船师高频真题题库2025.docx
- 注册验船师高频题库带解析2025.docx
- 注册验船师考试必备资料2025.docx
- 注册验船师精选题库带分析2025.docx
- 注册验船师考前冲刺必刷题附答案2025.docx
- 新高考生物二轮复习讲练测第10讲 人体的稳态与免疫调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第13讲 生物技术与工程(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第7讲 遗传的基本规律与伴性遗传(检测)(原卷版) .docx
- 新高考生物二轮复习讲练测第13讲 生物技术与工程(检测)(原卷版).docx
文档评论(0)