厦门大学数据库实验室MapReduce连接优化指南.pptVIP

  • 3
  • 0
  • 约9.89千字
  • 约 39页
  • 2017-06-18 发布于湖北
  • 举报

厦门大学数据库实验室MapReduce连接优化指南.ppt

基于数据索引的连接 该类算法的思想是利用合适的索引对数据进行过滤,以优化查询的性能。 Hadoop++和HadoopDB都可以利用索引提高连接操作的性能。 Hadoop++主要利用寄宿索引技术来提高数据查询、连接的性能。寄宿索引将索引加入到Block信息中,并添加了Footer部分用以分隔各个分片Hadoop++利用MapReduce作业来完成索引的构建。在进行数据查询时,split函数从文件末尾根据Footer信息解析出每个分片的位置,itemize函数根据数据查询的范围定位满足条件的数据。在此基础上,Hadoop++还对数据连接、数据布局方面进行了优化。 HadoopDB 在Hadoop 和 Hive上进行了修改,完成了由SQL语句生成MapReduce作业和作业中每个任务执行的SQL语句的过程。在查询时,HadoopDB将数据导入到数据库中,利用数据库中的索引及查询优化机制提高查询性能。 基于数据索引的连接 CoHadoop通过改变Hadoop的副本放置策略来提高 MapReduce 框架处理数据连接性能。CoHadoop 为每个文件增加 Locator 字段来标识其他存储位置,具有相同Locator信息的文件将被尽量组织在相同的数据节点上。在Master节点上维护一个Locator的Hash表,用来存储每个文件的存储位置,这样在进行两表连接运算时,需要连接的两表数据

文档评论(0)

1亿VIP精品文档

相关文档