ChMapReduce算法设计.pptxVIP

  • 23
  • 0
  • 约1.82万字
  • 约 96页
  • 2016-11-17 发布于湖北
  • 举报
Ch.6. MapReduce 算法设计;Ch.6. MapReduce算法设计; 自MapReduce发明后,Google大量用于各种海量数据处理,目前Google内部有7千以上的程序基于MapReduce实现。MapReduce可广泛应用于搜索引擎(文档倒排索引,网页链接图分析与页面排序等)、Web日志分析、文档分析处理、机器学习、机器翻译等 各种大规模 数据并行计 算应用领域 各类大规模 数据并行处 理算法。 ;基本算法 各种全局数据相关性小、能适当划分数据的计算任务,如: 分布式排序 分布式GREP(文本匹配查找) 关系代数操作 如:选择,投影,求交集、并集,连接,成组,聚合… 矩阵向量相乘、矩阵相乘 词频统计(word count),词频重要性分析(TF-IDF) 单词同现关系分析 典型的应用如从生物医学文献中自动挖掘基因交互作用关系 文档倒排索引 …… ;MapReduce可解决哪些算法问题?;MapReduce可解决哪些算法问题?;信息检索、自然语言理解和机器学习的三个要素:数据,特征与算法 2001, 微软研究院的Banko and Brill*等发表了一篇自然语言理解领域的经典研究论文,探讨训练数据集大小对分类精度的影响,发现数据越大,精度越高;更有趣的发现是,他们发现当数据不断增长时,不同算法的分类精度趋向于相同

文档评论(0)

1亿VIP精品文档

相关文档