对偶连接问题的哈希算法的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 在信息检索和数据库应用中,一种常见的查询方式是从一组数据对象(如文 档,图像)中返回符合条件的成对对象,例如,在数据库应用中经常需要根据相 似度将两个相似的文档或者网页作为结果返回给用户,这样的操作在最近的研究 工作中定义为相似性连接。在本文中,我们将这一类典型的查询形式进一步扩展 为对偶连接问题。对应的问题描述为,给定一组数据对象和操作在对象上的关系 度量(如相似度或相关性系数)找到所有符合关系度量阈值条件的对象对。由于 问题定义的简单性和其中所定义的关系度量的多样性,对偶连接问题在各种不同 领域的问题中扮演核心的角色,例如,副本检测,关联规则挖掘,统计相关性分 析,协同过滤等。同时,在技术上的挑战性也使这一问题在以往的研究工作中得 到广泛的关注。基于避免对所有对象的两两比较的动机,一系列适用于不同数据 类型和关系度量的启发式剪枝算法被开发出来,其中有代表性的如倒排表索引, 前缀/后缀过滤,准单调性剪枝等等。 然而,这一类基于启发式的方法在解决问题时,其执行性能仍然收到一些内 在缺陷的负面影响,例如剪枝的效果得不到保证,无法针对不同特征的数据集优 化算法性能,以及缺乏一种通用的算法模型等。进一步的优化在确定性的算法框 架下难以达到。近来,很多研究发现仅仅得到近似的结果在现实中很多查询应用 中可以被接受,并且这种做法可以大幅度降低查询的时间。这样的原则也同样适 用于对偶连接问题,因此,本文重点关注利用一组随机算法高效的处理“近似版 本的对偶连接问题。在这样的情况下,一组值得关注的问题是:(1)在面对大 规模数据时,是否可以将原始数据通过随机模式转化为规模小到可以装入内存的 “概要”,并且通过处理概要来执行关系度量下的查询;(2)能否以较小的代价(如 通过概要)足够精确地估计对象之间的关系度量的值:(3)怎样在解决问题时尽可 能避免对象之间的两两比较,或者说是否可以采用一种剪枝方法将不符合条件的 结果尽可能地去除。 本文中发现在空间最近邻中广泛使用的Locality-sensitiveHashing(LSH)思 想为对偶连接问题的解决提供了一个很好的借鉴。类似的哈希映射模式在对偶连 接问题中成为从原始数据生成概要的理想选择。在此基础上,本文为了高效执行 对偶连接查找提出了一组基于随机模式的解决方案,其中所有的算法模型均基于 哈希模式生成的概要进行操作,因此称之为哈希算法。总结起来,本文工作在理 论模型方面主要的贡献包括: (1)研究了所定义的哈希模式的存在性与关系度量之fbJ的关系,给出了哈希模 式对于度量存在的一组必要条件。这一部分的结论实际上也给出了哈希算法的适 对偶连接问题的哈希算法lIJf究 III 复臣人学博I:学位论文 摘要 用范围。具体地说,我们首先从以往研究中的抽样技术和扰动算法中抽象出一组 针对常用关系度量的哈希模式,并根据这些典型的实例归纳和证明出一组哈希模 式对于度量存在性的必要条件。 (2)提出了一个对关系度量的区间估计模型。区间估计模型与早期工作中的期 望估计模式相比,具有在分析上可证和执行上可控的估计精度,并且可以通过调 整参数优化整体剪枝算法的效率。在分析方面,我们证明区间估计模型在解决对 偶连接问题所需哈希演算的次数(代表主要的时空代价)为Dp。2logn)伽代表对 象总数);在执行方面,我们讨论了估计模型所需的数据结构并对算法整体的时 间和空间复杂度进行了分析,并且通过在真实数据集上的执行结果揭示了区间估 计模型与之前工作中的期望估计模型比较在性能上的优势。 (3)设计一个高效的随机过滤器模型。这类模型相比估计模型在执行上具有更 小的时间/存储需求。这里首先归纳和分析了移植自最近邻问题中LSH技术的原 始过滤器模型(称为BasicLSH,简称B.LSH),.指出了其在处理对偶连接问题时 D陋-2 logn)级。并且,我们证明A.LSH过滤器模型所具有的性质使其克服了原 始B.LSH模式的性能瓶颈。 在应用方面,我们将提出的通用估计模型和通用过滤器模型分别置于一组实 际应用问题中,针对每一个具体问题对随机模型进行扩展和调整,使之适用于具 体的问题环境,并藉此揭示不同随机模型在执行时的内部行为和性能特性。这部 分工作所涉及的主要内容包括:

文档评论(0)

liybai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档