亿赞普Hadoop应用浅析.pptxVIP

  • 2
  • 0
  • 约1.8千字
  • 约 16页
  • 2017-04-01 发布于广东
  • 举报
亿赞普Hadoop应用浅析.pptx

亿赞普Hadoop应用浅析 IZP 肖燕京 密级: 目录 一 IZP Hadoop集群现状 Hadoop应用 Hadoop集群维护及出现的问题 密级: 一:IZP Hadoop集群现状 集群规模 共大、小 2个集群:数据中心和实验室集群 数据中心: 1台NameNode, 1台SecondNameNode, 1台JobTracker,100来台DataNode 共100多台高配服务器; 数据中心又分为10多个机架,每个机架上10多台服务器; 实验室集群:共10几台普通微型机. 机器配置 名称节点和第二名称节点内存不小于90G,硬盘约1TB JobTracker内存不小于20G,硬盘约1TB 数据节点内存不小于20G,硬盘不小于10TB 槽位分配:每台机器十多个Map槽位,四至六个Reduce槽位 密级: 一:IZP Hadoop集群现状 集群一天新增数据 包括新上传数据和作业产生的新数据 一天新增数据不小于4TB 集群使用现状 一天提交约2000个Job 所有Job输入日志为60-80 TB 平均每天Hadoop集群的使用率为20-25% 密级: 二:IZP Hadoop应用 数据挖掘 网页库 爬取的网页存入Hbase 从数据中提取网页关键词信息,并对网页进行兴趣组分类 CTR (网页的广告点击率 预测) 用户兴趣组 根据用户的历史行为对用户进行标签分类; 不同的用户在同一个页

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档