Hadoop HDFS在大数据分析中应用与启示.pdfVIP

  • 4
  • 0
  • 约1.35千字
  • 约 2页
  • 2026-04-24 发布于北京
  • 举报

基础架构类的分布式系统的开发,不要脱离业务,我们始终要围绕一个业务场景驱动来进行

需求的分析,以及架构的设计和开发

大数据领域的hadoophdfs,分布式文件系统,但是他是解决什么问题的,架构是如何设计

的,我们从他身上可以得到一些什么样的启示呢

比如说,现在我们要或者APP的一些用户浏览行为,收集到一些用户浏览行为的

日志,比如说每天收集到10亿条数据,一共是几个GB,这几个GB可能都存在于一个大文

件里

一个大文件里就放了10亿条数据,大小达到了几个GB

我们需要对这个文件里的用户行为的日志数据进行分析,此时你说怎么弄呢?你不可能说对

这个文件里的数据一条一条扫描和分析,这样会很慢很慢很慢,可能10亿条数据可能需要

耗费几天的时间来进行分析

hadoophdfs,凭空出现,解决的就是上面的那个场景,超大数据集

10亿条数据,一共是5GB,5GB的数据会被拆分成N多个数据块,每个数据块就128MB,

一共会把这个文件拆分成40个小文件,每个小文件是128MB,这40个小文件可以分散在

10台机器上,每台机器可以放4个小文件就可以了

此时你可以启动40个分布式计算的任务分发到10台机器上去,每台机器上是4个计算任务,

每个计算任务针对一个128MB的小

文档评论(0)

1亿VIP精品文档

相关文档