Hadoop平台语言模型训练基础.pptVIP

  • 19
  • 0
  • 约1.76万字
  • 约 20页
  • 2018-01-18 发布于河南
  • 举报
Hadoop平台语言模型训练基础

谢谢! “云计算”(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。 云的好处,成本和弹性。 处理“大数据”(Big Data)。 存储空间、带宽和计算能力都会得到“永久性的扩充”。 * Hadoop Common:支持其他Hadoop子项目的通用工具。 HDFS:向应用数据提供高吞吐量访问的分布式文件系统。 MapReduce:用于对计算群集上的大型数据集合进行分布式处理的软件框架。 HBase:支持大型表格结构化数据存储的可伸缩、分布式数据库。 Hive:提供数据汇总和随机查询的数据仓库基础设施。 Pig:用于并行计算的高级数据流语言和执行框架。 Chukwa:管理大型分布式系统的数据采集系统。 ZooKeeper:用于分布式应用的高性能协调服务。 * 元数据(metadata):data about data (关于数据的数据)。描述数据及其环境的数据。 Hadoop的副本存放策略是:在与客户端相同的节点上放置第一个副本;第二个副本放置在与第一个不同的随机选择的机架上,第三个副本被放置在与第二个相同的机架上。 NameNode使用事务日志(EditLog)来记

文档评论(0)

1亿VIP精品文档

相关文档