- 4
- 0
- 约1.35千字
- 约 2页
- 2026-04-24 发布于北京
- 举报
基础架构类的分布式系统的开发,不要脱离业务,我们始终要围绕一个业务场景驱动来进行
需求的分析,以及架构的设计和开发
大数据领域的hadoophdfs,分布式文件系统,但是他是解决什么问题的,架构是如何设计
的,我们从他身上可以得到一些什么样的启示呢
比如说,现在我们要或者APP的一些用户浏览行为,收集到一些用户浏览行为的
日志,比如说每天收集到10亿条数据,一共是几个GB,这几个GB可能都存在于一个大文
件里
一个大文件里就放了10亿条数据,大小达到了几个GB
我们需要对这个文件里的用户行为的日志数据进行分析,此时你说怎么弄呢?你不可能说对
这个文件里的数据一条一条扫描和分析,这样会很慢很慢很慢,可能10亿条数据可能需要
耗费几天的时间来进行分析
hadoophdfs,凭空出现,解决的就是上面的那个场景,超大数据集
10亿条数据,一共是5GB,5GB的数据会被拆分成N多个数据块,每个数据块就128MB,
一共会把这个文件拆分成40个小文件,每个小文件是128MB,这40个小文件可以分散在
10台机器上,每台机器可以放4个小文件就可以了
此时你可以启动40个分布式计算的任务分发到10台机器上去,每台机器上是4个计算任务,
每个计算任务针对一个128MB的小
您可能关注的文档
最近下载
- 第五章-药物发现的虚拟筛选方法.pptx VIP
- 湘教版八年级地理下册教学课件《7.4长江经济带的协同发展》.pptx VIP
- Mole节点电容式微动仪.pdf VIP
- 2025年浙江宁波市交通建设工程试验检测中心有限公司招聘笔试参考题库附带答案详解.pdf
- 关于XX法学院“十五五”发展规划(完整版).pdf
- ac-121-102r1大型飞机公共航空运输机载应急医疗设备配备和训练.pdf VIP
- 贝壳找房科技有限公司激励机制对员工离职倾向的影响研究.docx VIP
- 市政工程二级建造师继续教育题库.docx VIP
- 2017年刑法新规定224条.doc VIP
- 陕西专技2026公需课《立足新阶段、抢抓新机遇党的二十届四中全会精神与“十五五”战略机遇解读》20学时完整题库及答案.docx VIP
原创力文档

文档评论(0)