网站大量收购独家精品文档,联系QQ:2885784924

罗道文-论文阅读报告-20150807-厦门大学数据库试验室.PPTVIP

罗道文-论文阅读报告-20150807-厦门大学数据库试验室.PPT

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
罗道文-论文阅读报告-20150807-厦门大学数据库试验室

厦门大学数据库实验室 论文阅读报告三 报告人:罗道文 导师:林子雨 时间:2015年08月07日 过渡页 * 目录 Efficient Similarity Joins for Near Duplicate Detection MassJoin: A MapReduce-based Method for Scalable String Similarity Joins 1 2 基础知识 * Xiao C, Wang W, Lin X, et al. Efficient similarity joins for near-duplicate detection [J]. ACM Transactions on Database Systems (TODS), 2011, 36(3): 15-24. Guoliang Li?;?Shuang Hao?;?Jiannan Wang?;?Jianhua Feng,MassJoin: A MapReduce-based Method for Scalable String Similarity Joins,Data Engineering (ICDE), 2014 IEEE 30th International Conference on 论文详情: 论文一: 论文二: 基础知识 * ppjoin 基础知识 * 字符串格式: 基础知识 * 四种相似度度量函数: Overlap similarity is 4 基础知识 * Hamming similarity is 2。 基础知识 * 公式转换: 基础知识 * ? 前缀过滤算法,那前缀到底多长合适了? ? 根据抽屉原理,如果O(x,y)=α,那么长度为(|x|- α+1)的x前缀必须和长度为(|y|- α+1)的y前缀至少一个匹配。 如果α=4,那么前缀长度为2。 基础知识 * Prefix-length=(|x|- α+1) } 前缀长度= 基础知识 * 举个例子: 假设t=2,根据公式 假设由y,z,w建倒排索引 C={w},G={z},A={y,z},B={y},此时来了一个字符串x,则我们需要到倒排索引中查找B和C的列表,可得(x,y)和(x,w)为候选相似对。 基础知识 * 基于位置过滤: X和y前缀匹配,而且匹配个数为1,那么x和y最大匹配数是多少了? 最大匹配数=前缀匹配数+min(x后缀长度,y后最长度)。 基础知识 * 算法执行流程: 一个倒排索引和一个字符串 迭代字符串前缀每一个元素w[i],查找倒排索引 |x|*t=|y| 1+ubund=α A[y] += 1 A是一个map,从记录的id到int的映射 验证x和y 基础知识 * C={w} G={z} A={z,y} B={y} 假设t=0.8,可得α=5, x的前缀为B和C,先取出B,然后倒排索引中查找得到y,50.8*5=4,符合第一个条件。因为1+ubound=4,所以不符合第二个条件,即不作为侯选集。 再取出C,倒排索引中找到w,但30.8*5=4,所以直接淘汰。 基础知识 * 验证执行流程: x和A,以及α 利用ubound=A[y]+|x|-px过滤 O=O+x和y后缀匹配数 如果Oα,则x和y匹配。 基础知识 * 后缀过滤: 在字符串x后缀随机选择一个元素w,在y中也找到w(简单考虑,不考虑找不到w的情形)则x和y中,w左右两边的长度差即为海明距离最小值。 基础知识 * 假设海明距离为2,随机选择的元素为F,则H(x,y)最小值为1+1=2,不大于2,所以可作为侯选集。 但是如果迭代调用,在F左边随机选择D,则可得H(x,y)最小值为1+2+1=4,大于2,则淘汰,不作为侯选集。 举个例子:

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档