- 0
- 0
- 约6.42千字
- 约 32页
- 2017-09-06 发布于天津
- 举报
шаблоны проектирования hadoop mapreduce
Задача Подсчитать количество вхождений всех слов в наборе документов {d1,d2,…} Типичное решение In-mapper combining In-mapper combining Недостатки паттерна: Угроза масштабируемости: надо хранить результаты промежуточных вычислений, пока mapper не обработает все поданные на него данные. Наличие внутренних состояний внутри mapper создает возможность появления ошибок связанных с порядком выполнения. Одно из решений 1): делать emit после каждых n обработанных пар ключ, значение In-mapper combining Combiner в MapReduce - оптимизационная опция, поэтому корректность выполнения алгоритма не должна от него зависеть. Reducer должен принимать на вход пары ключ,значение того же типа что и пары испускаемые mapper’ом. Задача Рассмотрим пример, в котором обыграны два этих правила. Есть много .log документов, хранящих данные вида user_id, SpentTime. Нужно посчитать среднее время пребывания на сайте. Учесть правило: Простое решение Неправильное решение Неправильное решение Правильное решение Еще одно решение “Pairs” и “stripes” Учебник Python 3 покупают вместе с KR, но никогда наоборот. Учебник SICP не покупают вместе с “Мечты роботов” Азимова. Нужно построить матрицу совместных покупок с помощью паттерна pairs или с помощью паттерна stripes. “Pairs” и “stripes” Pairs: “Pairs” и “stripes” Stripes: “Pairs” и “stripes” Очевидно, что “pairs” генерирует намного больше пар ключ,значение, чем “stripes”. Реализация “stripes” компактна, но сложна. Реализация “stripes” требует временного хранения данных. Combiner в “stripes” имеет больше возможностей для выполнения локальной агрегации. “Pairs” и “stripes” “Pairs” и “stripes” Order inversion Вернемся к построению матрицы совместных покупок: некоторые товары покупают гораздо чаще других. Следовательно абсолютные значения нерепрезентативны, поэтому перейдем к частотам: Order inversion Возникает проблема: как подсчитать знаменатель? С помощью шаблона “Stripes”: в reducer попадают пары term, Stripe[term1,term2,…], поэтому м
您可能关注的文档
- word使用技巧大全85 例 - word联盟.doc
- workbench教程之静力学分析.pdf
- wsdas 温湿度自动监测系统软件使用说明书.pdf
- x }l - 武汉大学学报·信息科学版.pdf
- x 射线粉末衍射的新起点— rietveld 全谱拟合 - 微构分析测试中心.pdf
- x 射线二极管阴极灵敏度测量及其不确定度分析 - researchgate.pdf
- x70hd 管线钢形变诱导铁素体相变关键参数 - 中南大学学报.pdf
- xiameter(r) ofs-0772 硅酸盐.pdf
- xml数据库的加密与密文检索 - 北京邮电大学学报.pdf
- xrw-300系列 - 橡胶拉力测试机.doc
最近下载
- 2025年最新部编版五年级语文下册1-8单元教材分析(全册) .pdf VIP
- 山东省烟台龙口市(五四制)2024-2025学年六年级上学期期末考试历史试题.pdf VIP
- 青少年编程:NOIP CSP 初赛篇.pdf VIP
- 2024年河南豫能控股股份有限公司招聘笔试真题汇总.docx VIP
- 小学科学教育三年规划实施方案.docx VIP
- 视频会议摄像机安装指导书.docx VIP
- 波束匹配-5G网络自适应技术.doc VIP
- 2025年河南豫能控股股份有限公司招聘考试笔试试题(含答案).docx VIP
- 急性心肌梗死PBL教学指南:临床思维培养与典型案例实战解析.pptx VIP
- iso9000实战大全iso9001教材iso9000培训讲义iso9000简述.pptx VIP
原创力文档

文档评论(0)