对偶连接问题的哈希算法的研究.pdf

下载文档 降价啦

7
0
约16.1万字
约 112页
2015-10-05 发布于安徽
举报
版权申诉
保障服务

对偶连接问题的哈希算法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要摘要在信息检索和数据库应用中，一种常见的查询方式是从一组数据对象(如文档，图像)中返回符合条件的成对对象，例如，在数据库应用中经常需要根据相似度将两个相似的文档或者网页作为结果返回给用户，这样的操作在最近的研究工作中定义为相似性连接。在本文中，我们将这一类典型的查询形式进一步扩展为对偶连接问题。对应的问题描述为，给定一组数据对象和操作在对象上的关系度量(如相似度或相关性系数)找到所有符合关系度量阈值条件的对象对。由于问题定义的简单性和其中所定义的关系度量的多样性，对偶连接问题在各种不同领域的问题中扮演核心的角色，例如，副本检测，关联规则挖掘，统计相关性分析，协同过滤等。同时，在技术上的挑战性也使这一问题在以往的研究工作中得到广泛的关注。基于避免对所有对象的两两比较的动机，一系列适用于不同数据类型和关系度量的启发式剪枝算法被开发出来，其中有代表性的如倒排表索引，前缀／后缀过滤，准单调性剪枝等等。然而，这一类基于启发式的方法在解决问题时，其执行性能仍然收到一些内在缺陷的负面影响，例如剪枝的效果得不到保证，无法针对不同特征的数据集优化算法性能，以及缺乏一种通用的算法模型等。进一步的优化在确定性的算法框架下难以达到。近来，很多研究发现仅仅得到近似的结果在现实中很多查询应用中可以被接受，并且这种做法可以大幅度降低查询的时间。这样的原则也同样适用于对偶连接问题，因此，本文重点关注利用一组随机算法高效的处理“近似版本的对偶连接问题。在这样的情况下，一组值得关注的问题是：(1)在面对大规模数据时，是否可以将原始数据通过随机模式转化为规模小到可以装入内存的 “概要”，并且通过处理概要来执行关系度量下的查询；(2)能否以较小的代价(如通过概要)足够精确地估计对象之间的关系度量的值：(3)怎样在解决问题时尽可能避免对象之间的两两比较，或者说是否可以采用一种剪枝方法将不符合条件的结果尽可能地去除。本文中发现在空间最近邻中广泛使用的Locality-sensitiveHashing(LSH)思想为对偶连接问题的解决提供了一个很好的借鉴。类似的哈希映射模式在对偶连接问题中成为从原始数据生成概要的理想选择。在此基础上，本文为了高效执行对偶连接查找提出了一组基于随机模式的解决方案，其中所有的算法模型均基于哈希模式生成的概要进行操作，因此称之为哈希算法。总结起来，本文工作在理论模型方面主要的贡献包括： (1)研究了所定义的哈希模式的存在性与关系度量之fbJ的关系，给出了哈希模式对于度量存在的一组必要条件。这一部分的结论实际上也给出了哈希算法的适对偶连接问题的哈希算法lIJf究 III 复臣人学博I：学位论文摘要用范围。具体地说，我们首先从以往研究中的抽样技术和扰动算法中抽象出一组针对常用关系度量的哈希模式，并根据这些典型的实例归纳和证明出一组哈希模式对于度量存在性的必要条件。 (2)提出了一个对关系度量的区间估计模型。区间估计模型与早期工作中的期望估计模式相比，具有在分析上可证和执行上可控的估计精度，并且可以通过调整参数优化整体剪枝算法的效率。在分析方面，我们证明区间估计模型在解决对偶连接问题所需哈希演算的次数(代表主要的时空代价)为Dp。2logn)伽代表对象总数)；在执行方面，我们讨论了估计模型所需的数据结构并对算法整体的时间和空间复杂度进行了分析，并且通过在真实数据集上的执行结果揭示了区间估计模型与之前工作中的期望估计模型比较在性能上的优势。 (3)设计一个高效的随机过滤器模型。这类模型相比估计模型在执行上具有更小的时间／存储需求。这里首先归纳和分析了移植自最近邻问题中LSH技术的原始过滤器模型(称为BasicLSH，简称B．LSH)，．指出了其在处理对偶连接问题时 D陋-2 logn)级。并且，我们证明A．LSH过滤器模型所具有的性质使其克服了原始B．LSH模式的性能瓶颈。在应用方面，我们将提出的通用估计模型和通用过滤器模型分别置于一组实际应用问题中，针对每一个具体问题对随机模型进行扩展和调整，使之适用于具体的问题环境，并藉此揭示不同随机模型在执行时的内部行为和性能特性。这部分工作所涉及的主要内容包括：