- 6
- 0
- 约2.64千字
- 约 10页
- 2017-06-04 发布于河南
- 举报
培乐园-海量数据之架构和处理6
5. Technology
5. Technology
• Hardware
• Data structure
• Algorithm
• Distribution Cloud
5. Technology: remember
5. Technology: computing
Platform Communication Scheme Data size
Platform Communication Scheme Data size
PPllaattffoorrmm CCoommmmuunniiccaattiioonn SScchheemmee DDaattaa ssiizzee
Peer-to-Peer TCP/IP Petabytes
Virtual Clusters MapReduce / MPI Peta,Tera
HPC Clusters MPI / MapReduce Terabytes
Multicore Multithreading Gigabytes
GPU CUDA Gigabytes
FPGA HDL Gigabytes
5. Technology: storage
• Change:
– Tape is Dead
– Disk is Tape
– Flash is Disk
– RAM Locality is King
• Distributed:
– Distributed DB
– Distributed Memory System
– DFS
5. Technology: network
• 1000Mb Ethernet
• 1Gb Ethernet
• 10Gb Ethernet as the backbone network
• Network Switch?
5. Technology: more
• Hadoop Stack
• NoSQL NewSQL
• MPI, Spark, Mesos
• HadoopDB, Storm, S4, Kafka, R on Hadoop
• FLASH SSD, Memory, GPU,
参考
• GFS / MapReduce / Bigtable
• Hadoop / Hive
• Google, Facebook, Amazon, …..
• Data warehouse, Machine learning, ….
•
…… ……
• 很多示意图/架构图来源于学术/交流/互联网,未指明,抱歉
• Thanks ☺
问题
How to process:
• How to process:
HHooww ttoo pprroocceessss::
100 Billion Web pages
– 100 Billion Web pages
110000 BBiilllliioonn WWeebb ppaaggeess
• Extracting Features
您可能关注的文档
- 吉林日报稿.doc
- 吉林大学2013年推免生名额.pdf
- 吉林大学汽车理论第五章 操纵稳定性.ppt
- 同步发电机调试作业指导书.doc
- 名企业鼓励案例.doc
- 同分母分数连加和连减.ppt
- 吊顶式新风换气机参数详细介绍--空调设备.pdf
- 名师领导:高考语文备考计谋及方法.doc
- 后代健康 准妈妈营养抓关键.docx.doc
- 名著《家》1-20章 简单情节填空题.ppt
- 2025年生物制药行业十年发展:创新药物与临床试验报告.docx
- 2026年硬质合金模具材料项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年数字经济网络文学IP大数据分析报告.docx
- 2026年橡胶鞋底自动成型机项目可行性研究报告(市场数据调查、监测研究).docx
- 2025年麻纺面料消费者需求分析报告.docx
- 2026年双转鼓离心机项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年膏/液体万用罐装机项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年点钞盒项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年U型管式换热器项目可行性研究报告(市场数据调查、监测研究).docx
- 2026年水下机器人行业应用拓展分析报告.docx
原创力文档

文档评论(0)