- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要
摘 要
在信息检索和数据库应用中,一种常见的查询方式是从一组数据对象(如文
档,图像)中返回符合条件的成对对象,例如,在数据库应用中经常需要根据相
似度将两个相似的文档或者网页作为结果返回给用户,这样的操作在最近的研究
工作中定义为相似性连接。在本文中,我们将这一类典型的查询形式进一步扩展
为对偶连接问题。对应的问题描述为,给定一组数据对象和操作在对象上的关系
度量(如相似度或相关性系数)找到所有符合关系度量阈值条件的对象对。由于
问题定义的简单性和其中所定义的关系度量的多样性,对偶连接问题在各种不同
领域的问题中扮演核心的角色,例如,副本检测,关联规则挖掘,统计相关性分
析,协同过滤等。同时,在技术上的挑战性也使这一问题在以往的研究工作中得
到广泛的关注。基于避免对所有对象的两两比较的动机,一系列适用于不同数据
类型和关系度量的启发式剪枝算法被开发出来,其中有代表性的如倒排表索引,
前缀/后缀过滤,准单调性剪枝等等。
然而,这一类基于启发式的方法在解决问题时,其执行性能仍然收到一些内
在缺陷的负面影响,例如剪枝的效果得不到保证,无法针对不同特征的数据集优
化算法性能,以及缺乏一种通用的算法模型等。进一步的优化在确定性的算法框
架下难以达到。近来,很多研究发现仅仅得到近似的结果在现实中很多查询应用
中可以被接受,并且这种做法可以大幅度降低查询的时间。这样的原则也同样适
用于对偶连接问题,因此,本文重点关注利用一组随机算法高效的处理“近似版
本的对偶连接问题。在这样的情况下,一组值得关注的问题是:(1)在面对大
规模数据时,是否可以将原始数据通过随机模式转化为规模小到可以装入内存的
“概要”,并且通过处理概要来执行关系度量下的查询;(2)能否以较小的代价(如
通过概要)足够精确地估计对象之间的关系度量的值:(3)怎样在解决问题时尽可
能避免对象之间的两两比较,或者说是否可以采用一种剪枝方法将不符合条件的
结果尽可能地去除。
本文中发现在空间最近邻中广泛使用的Locality-sensitiveHashing(LSH)思
想为对偶连接问题的解决提供了一个很好的借鉴。类似的哈希映射模式在对偶连
接问题中成为从原始数据生成概要的理想选择。在此基础上,本文为了高效执行
对偶连接查找提出了一组基于随机模式的解决方案,其中所有的算法模型均基于
哈希模式生成的概要进行操作,因此称之为哈希算法。总结起来,本文工作在理
论模型方面主要的贡献包括:
(1)研究了所定义的哈希模式的存在性与关系度量之fbJ的关系,给出了哈希模
式对于度量存在的一组必要条件。这一部分的结论实际上也给出了哈希算法的适
对偶连接问题的哈希算法lIJf究 III 复臣人学博I:学位论文
摘要
用范围。具体地说,我们首先从以往研究中的抽样技术和扰动算法中抽象出一组
针对常用关系度量的哈希模式,并根据这些典型的实例归纳和证明出一组哈希模
式对于度量存在性的必要条件。
(2)提出了一个对关系度量的区间估计模型。区间估计模型与早期工作中的期
望估计模式相比,具有在分析上可证和执行上可控的估计精度,并且可以通过调
整参数优化整体剪枝算法的效率。在分析方面,我们证明区间估计模型在解决对
偶连接问题所需哈希演算的次数(代表主要的时空代价)为Dp。2logn)伽代表对
象总数);在执行方面,我们讨论了估计模型所需的数据结构并对算法整体的时
间和空间复杂度进行了分析,并且通过在真实数据集上的执行结果揭示了区间估
计模型与之前工作中的期望估计模型比较在性能上的优势。
(3)设计一个高效的随机过滤器模型。这类模型相比估计模型在执行上具有更
小的时间/存储需求。这里首先归纳和分析了移植自最近邻问题中LSH技术的原
始过滤器模型(称为BasicLSH,简称B.LSH),.指出了其在处理对偶连接问题时
D陋-2
logn)级。并且,我们证明A.LSH过滤器模型所具有的性质使其克服了原
始B.LSH模式的性能瓶颈。
在应用方面,我们将提出的通用估计模型和通用过滤器模型分别置于一组实
际应用问题中,针对每一个具体问题对随机模型进行扩展和调整,使之适用于具
体的问题环境,并藉此揭示不同随机模型在执行时的内部行为和性能特性。这部
分工作所涉及的主要内容包括:
文档评论(0)