基于局部敏感哈希的并行相似文本发现.pptVIP

基于局部敏感哈希的并行相似文本发现.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
算法所实现的功能有: * 要计算文本的相似度,首先要将文本进行表示。本文使用特征矩阵对文本进行表示。 特征矩阵并不是真正的数据存储方式,因为特征矩阵是一个非常稀疏的矩阵,而且维度也很高。为了实现降维,我们使用了最小哈希生成哈希签名的方法。 * 解释哈希签名的产生 解释为什么可以使用签名之间的相似度代表文本之间的相似度 伪反例的产生 每个哈希签名的长度都是n,因此用这种方法可以对文本进行降维。 我们最终计算相似度时,是计算这些代表文本的哈希签名之间的相似度。为什么可以这么做呢。我们可以发现,越相似的文本,最小哈希值越有可能相同。而哈希签名是由最小哈希值构成的,所以我们可以通过计算哈希签名中相同的元素所占的比例来近似地表示文本之间原始的相似度。 我们注意到n是一个可以变化的参数,当n取不同的值时,得到的近似值不同,当n不断增大的时候,这种近似值就越精确。 因为最终得到的是一个近似的相似度,因此就会出现伪反例。所谓的伪反例就是,原本相似度大于阈值,但是最终却被过滤掉的文本对。 * 利用哈希签名来代表文本,在一定程度上减少了存储空间的使用。但是仍然需要两两比对才能找出相似对,所以我们使用了局部敏感哈希来过滤掉那些不大可能相似的文本对,剩下那些可能相似的文本对成为候选对。 (解释局部敏感哈希原理) 解释图 通过伪正例,引出二次过滤 参数调整r,r减小,伪反例的数量减小,伪正例的数量是增加的 局部敏感哈希的主要思想就是,如果两个哈希签名足够相似,那么其中某一个band完全相同的概率是很大的,如果两个band完全相同,那么经过哈希之后映射到同一个桶中的概率是很大的,因此它们就可能成为候选对。 图 我们对b个band都进行这种哈希,那么同样一个文本对可能会有多次被映射到同一个桶中。传统的局部敏感哈希算法,一个文本对只要有一次被哈希到同一个桶中,就会成为候选对。但是我们发现,这种情况下产生很多的伪正例,所以我们提出了二次过滤。二次过滤就是通过提高一个文本对出现在同一个桶中的次数,来进一步过滤候选对。通过推导,得到一个新的次数阈值seg。结果表明,二次过滤产生的候选对几乎全部都是相似度大于阈值要求的文本对。 我们可以发现,使用LSH方法可能会产生伪反例。即相似度大于阈值要求的文本对可能会被过滤掉。这时,我们可以调整r,b的大小来控制伪正例伪反例的数量。比如随着r的减小,b的增大,文本对映射到同一个桶中的概率越大,因此伪反例的数目就会减小,伪正例的数目就会增大。我们将在实验结果中验证这一点。 * 利用哈希签名来代表文本,在一定程度上减少了存储空间的使用。但是仍然需要两两比对才能找出相似对,所以我们使用了局部敏感哈希来过滤掉那些不大可能相似的文本对,剩下那些可能相似的文本对成为候选对。 (解释局部敏感哈希原理) 解释图 通过伪正例,引出二次过滤 参数调整r,r减小,伪反例的数量减小,伪正例的数量是增加的 局部敏感哈希的主要思想就是,如果两个哈希签名足够相似,那么其中某一个band完全相同的概率是很大的,如果两个band完全相同,那么经过哈希之后映射到同一个桶中的概率是很大的,因此它们就可能成为候选对。 图 我们对b个band都进行这种哈希,那么同样一个文本对可能会有多次被映射到同一个桶中。传统的局部敏感哈希算法,一个文本对只要有一次被哈希到同一个桶中,就会成为候选对。但是我们发现,这种情况下产生很多的伪正例,所以我们提出了二次过滤。二次过滤就是通过提高一个文本对出现在同一个桶中的次数,来进一步过滤候选对。通过推导,得到一个新的次数阈值seg。结果表明,二次过滤产生的候选对几乎全部都是相似度大于阈值要求的文本对。 我们可以发现,使用LSH方法可能会产生伪反例。即相似度大于阈值要求的文本对可能会被过滤掉。这时,我们可以调整r,b的大小来控制伪正例伪反例的数量。比如随着r的减小,b的增大,文本对映射到同一个桶中的概率越大,因此伪反例的数目就会减小,伪正例的数目就会增大。我们将在实验结果中验证这一点。 * 本文中的所有算法都是使用Hadoop来实现。 * 体现Hadoop分布式计算处理大数据的能力。 * * * * * 本科期间所写论文,如果有老师或者同学对我所做的工作感兴趣,可以在这个网站上找到可运行的源码和使用说明。 * 基于局部敏感哈希的 并行相似文本发现 答辩人:王菁菁 指导老师:林琛 助理教授 厦门大学计算机科学系 2013.6.2 研究背景和意义 算法实现 实验结果 总结与创新 后期工作 目录 */21 * 研究背景和意义 * */21 抄袭文档检测 镜像页面发现 同源新闻稿的发现 研究背景和意义 过滤 前缀过滤 长度过滤 位置过滤 后缀过滤 … 过滤方法 LSH LSH: Locality-

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档