各个MapReduce任务的详细设计 .docVIP

  • 10
  • 0
  • 约5.57千字
  • 约 7页
  • 2016-10-14 发布于重庆
  • 举报
各个MapReduce任务的详细设计

基于分布式系统的网页地名空间索引 小组成员:蔡 啸 陈慧挺 喻力久概述: 基于分布式系统的地名空间索引是对于经典的网页地名索引结构的一个扩展。它的设计目的是为了解决现有的网页索引系统在进行与地名相关的检索时不能够自动地关联到跟关键词有密切联系的其他的地名。我们所采取的解决方案是,通过在索引中引入具有层次结构的地名树,使得数据集具有一定的语义联想的能力,能够更好地理解用户的搜索,从而改善用户的搜索体验以及提高查询结果的质量。 系统的数据流示意图: 网页数据(天网的数据)-(1)-一个以地名为关键词的倒排表-(2)-加入空间标识的中文单词组成的数组-(3)-(迭代)对于这些地名进行空间聚类-(4)-将整理好的输出 根据上述的数据流图,我们可以分析出,整个处理流程中包括以以下三个MR的过程 (1)对网页数据进行分析以及中文切词 (2)中文单词词组到空间表示的映射(geocoding) (3)建立空间索引(spatial index) 各个MapReduce任务的详细设计: 第一个MapReduce任务 MapReduce任务功能概述: 对大量网页数据进行分析,并建立关于地名的倒排表。 输入输出

文档评论(0)

1亿VIP精品文档

相关文档