- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HADOOP字符串JOIN问题研究
唐振坤
2012年7月26日
基于Hadoop的字符串Join问题
Outline
1、问题定义
2、相关背景
3、想法工作
4、实验
5、结论
6、后续思路
2
1.问题定义
给定一组字符串,要判断出哪些字符串是相似的?
应用:
Web搜索引擎爬取网页时的重复网页检测
去除重复数据后的文档聚类
文档抄袭、剽窃检测
基于查询相似性的用户推荐
DNA序列分析
……
3
1.问题定义
4
1.问题定义
字符串相似性Join:
给定一组基于字符串为特征的数据集,找出其中相似的字符串,并Join相似的记录。
类型:
按操作不同:Self-Join、R-S Join
按应用不同:Jaccard Constraints、Ed Constraints
5
2.相关背景
相关算法:
All-Pairs
PPJoin、PPJoin+、Ed-Join
Pass-Join
PPJoin based on MapReduce
6
2.相关背景
Pass-Join: Partition-based method[1]:
Partition
SubstringSelection
Verify
[1] Li, G. and Deng, D. and Wang, J. and Feng, J. (2011). Pass-Join : A Partition-based Method for Similarity Joins. Proceedings of the VLDB Endowment, 5(3), 253--264.
7
2.相关背景
Pass-Join: Partition-based method
求ed(R=“abcde”,S=“bcfde”)?≦\tau,\tau=2
划分阶段:
子串选择阶段:
√
√
╳
bcfde
bcfde
bcfde
bcfde
bcfde
8
2.相关背景
基于Hadoop的Join操作[1]:
Reduce-Side Join
Map-Side Join
Memory-Backed Join
[1] Lin, J., Dyer, C. (2010). Data-intensive text processing with MapReduce. Synthesis Lectures on Human Language Technologies (Vol. 3, pp. 1-177). Morgan Claypool Publishers.
Key
s1
K1
Abc
K2
bcd
Key
s2
K1
123
K1
789
K2
456
Join
Key
s1
s2
K1
Abc
123
K1
Abc
789
K2
bcd
456
=
9
2.相关背景
Reduce-Side Join
Mapper
[Key,Value]
K1, Abc@
K2, bcd@
K1, 123#
K1, 789#
K2, 456#
Grouper
K1, (Abc@,123#,789#)
K2, (bcd@,456#)
Reducer
K1,Abc,123
K1,Abc,789
K2,bcd,456
10
2.相关背景
Memory-Backed Join
在Mapper处理前将小的数据表完全读入内存
读入内存放入Map中
K1 - Abc
K2 - bcd
Mapper
K1,Abc,123
K1,Abc,789
K2,bcd,456
小数据表已经读入内存
11
3.想法
三步连接:
划分片段并生成反向索引列表
子串选择并生成候选对
候选对验证
12
3.想法
生成反向索引列表
13
3.想法
子串选择并生成候选对
14
3.想法
连接字符串并验证(Reduce-Side Join)
15
3.想法
问题:
阶段太多,生成反向索引与子串选择阶段独立,可合并
候选对生成过大,连接时读入不可行
16
3.想法
划分片段与子串选择
字符串连接验证
17
3.想法
划分片段与子串选择
18
3.想法
字符串连接验证(Memory-Backed Join)
19
3.想法
在Map端划分片段与子串选择
在Reduce端连接并验证
20
4.实验
21
5.结论
1、MapReduce适合于批量处理,不适合多遍迭代的复杂算法
2、产生中间输出影响MapReduce性能
3、多利用Hadoop内置的Combiner及排序优化算法性能
4、MapReduce处理分区不合理会遭遇数据倾斜问题
22
6.后续思路
1、先用前缀过滤将所有字符串分组,在每台机器上再调用串行PassJoin算法
2、深入Mapreduce Join算法,再仔细地看下map-side join的效率及实现如何
3、考虑如何均匀分配发送至Reducer上的候选对,使得运行时
您可能关注的文档
- 基于CPLD高速时钟电路.doc
- 基于CRM理念客户个性化优惠查询门户v1.1.ppt
- 基于Delphi题库系统和试卷生成系统.doc
- 基于DS1820温度采集系统设计_00002.doc
- 基于DSPAD采集卡设计.doc
- 基于DSP履带机器人避障系统研究.doc
- 基于DSP履带机器人避障系统研究_00002.doc
- 基于DSP技术QAM调制器设计方案.docx
- 基于dsp混合式步进电动机细分控制研究.doc
- 基于DSP视频采集与压缩传输系统设计正文.doc
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 2023年秋国开《管理思想史》形考作业1-4答案.pdf
- 小学一年级数学上册期末试卷(A4打印版).pdf VIP
- 旅游学概论期末考试试题及解析.docx VIP
- 自贡市餐厨垃圾处理配套设施改建项目环评报告书.pdf VIP
- 《音乐之父巴赫》课件.ppt VIP
- 【中考短语】初中英语动词固定搭配全汇总.pdf VIP
- 射频设计软件:Keysight ADS二次开发_(7).Python脚本在KeysightADS中的应用.docx VIP
- 2025年民主生活会100条核心素材.pdf VIP
- (直接打印版)苏教版小学数学一年级上册期末试卷.pdf VIP
- 酒店拆除改造工程专项拆除施工方案.docx VIP
原创力文档


文档评论(0)