- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对偶连接问题的哈希算法研究计算机软件与理论专业论文
摘要摘
摘要
摘 要
在信息检索和数据库应用中,一种常见的查询方式是从一组数据对象(如文 档,图像)中返回符合条件的成对对象,例如,在数据库应用中经常需要根据相 似度将两个相似的文档或者网页作为结果返回给用户,这样的操作在最近的研究 工作中定义为相似性连接。在本文中,我们将这一类典型的查询形式进一步扩展 为对偶连接问题。对应的问题描述为,给定一组数据对象和操作在对象上的关系 度量(如相似度或相关性系数)找到所有符合关系度量阈值条件的对象对。由于 问题定义的简单性和其中所定义的关系度量的多样性,对偶连接问题在各种不同 领域的问题中扮演核心的角色,例如,副本检测,关联规则挖掘,统计相关性分 析,协同过滤等。同时,在技术上的挑战性也使这一问题在以往的研究工作中得 到广泛的关注。基于避免对所有对象的两两比较的动机,一系列适用于不同数据 类型和关系度量的启发式剪枝算法被开发出来,其中有代表性的如倒排表索引, 前缀/后缀过滤,准单调性剪枝等等。
然而,这一类基于启发式的方法在解决问题时,其执行性能仍然收到一些内 在缺陷的负面影响,例如剪枝的效果得不到保证,无法针对不同特征的数据集优 化算法性能,以及缺乏一种通用的算法模型等。进一步的优化在确定性的算法框 架下难以达到。近来,很多研究发现仅仅得到近似的结果在现实中很多查询应用 中可以被接受,并且这种做法可以大幅度降低查询的时间。这样的原则也同样适 用于对偶连接问题,因此,本文重点关注利用一组随机算法高效的处理“近似版 本的对偶连接问题。在这样的情况下,一组值得关注的问题是:(1)在面对大 规模数据时,是否可以将原始数据通过随机模式转化为规模小到可以装入内存的 “概要”,并且通过处理概要来执行关系度量下的查询;(2)能否以较小的代价(如 通过概要)足够精确地估计对象之间的关系度量的值:(3)怎样在解决问题时尽可 能避免对象之间的两两比较,或者说是否可以采用一种剪枝方法将不符合条件的 结果尽可能地去除。
本文中发现在空间最近邻中广泛使用的Locality-sensitive Hashing(LSH)思 想为对偶连接问题的解决提供了一个很好的借鉴。类似的哈希映射模式在对偶连 接问题中成为从原始数据生成概要的理想选择。在此基础上,本文为了高效执行 对偶连接查找提出了一组基于随机模式的解决方案,其中所有的算法模型均基于 哈希模式生成的概要进行操作,因此称之为哈希算法。总结起来,本文工作在理 论模型方面主要的贡献包括:
(1)研究了所定义的哈希模式的存在性与关系度量之fbJ的关系,给出了哈希模 式对于度量存在的一组必要条件。这一部分的结论实际上也给出了哈希算法的适
对偶连接问题的哈希算法lIJf究 III 复臣人学博I:学位论文
摘要用范围。具体地说,我们首先从以往研究中的抽样技术和扰动算法中抽象出一组
摘要
用范围。具体地说,我们首先从以往研究中的抽样技术和扰动算法中抽象出一组 针对常用关系度量的哈希模式,并根据这些典型的实例归纳和证明出一组哈希模 式对于度量存在性的必要条件。
(2)提出了一个对关系度量的区间估计模型。区间估计模型与早期工作中的期 望估计模式相比,具有在分析上可证和执行上可控的估计精度,并且可以通过调 整参数优化整体剪枝算法的效率。在分析方面,我们证明区间估计模型在解决对 偶连接问题所需哈希演算的次数(代表主要的时空代价)为Dp。2 logn)伽代表对
象总数);在执行方面,我们讨论了估计模型所需的数据结构并对算法整体的时 间和空间复杂度进行了分析,并且通过在真实数据集上的执行结果揭示了区间估 计模型与之前工作中的期望估计模型比较在性能上的优势。
(3)设计一个高效的随机过滤器模型。这类模型相比估计模型在执行上具有更 小的时间/存储需求。这里首先归纳和分析了移植自最近邻问题中LSH技术的原 始过滤器模型(称为Basic LSH,简称B.LSH),.指出了其在处理对偶连接问题时 的不足。随后,我们提出了具有更高效率的近似随机过滤器模型(Approximation LSH,简称A.LSH),使得所需的哈希演算次数从B.LSH模式的D仰鬲)级降低至
D陋-2 logn)级。并且,我们证明A.LSH过滤器模型所具有的性质使其克服了原 始B.LSH模式的性能瓶颈。
在应用方面,我们将提出的通用估计模型和通用过滤器模型分别置于一组实 际应用问题中,针对每一个具体问题对随机模型进行扩展和调整,使之适用于具 体的问题环境,并藉此揭示不同随机模型在执行时的内部行为和性能特性。这部 分工作所涉及的主要内容包括:
(1)置信度估计和快速挖掘置信度关联规则。从不频繁的项中挖掘具有高置信 度的关联在很多实际应用中扮演重要的角色。通过对估计模型进行扩展和变型可 以设计一个适用与置信度的区间估计模式并由此得到
您可能关注的文档
- 髌骨骨腱结合部损伤延迟愈合模型建立及冲击波治疗效果的研究运动人体科学专业论文.docx
- tgis时空数据模型研究地图学与地理信息系统专业论文.docx
- 乙草胺降解芽孢菌的分离及降解效果研究微生物与生化药学专业论文.docx
- 工位空调非均匀热环境人体热感觉评价研究供热供燃气通风及空调工程专业论文.docx
- 二十世纪以来两个汉字基本理论问题研究史论汉语言文字学专业论文.docx
- 200mw发电机组锅炉氮氧化物治理技术改造研究动力工程专业论文.docx
- 多径传播条件下的波达方向估计算法研究信号与信息处理专业论文.docx
- 多电平光伏逆变器电磁兼容性及漏电流抑制研究材料科学与工程专业论文.docx
- 复杂条件下钻井井筒修复内套井壁结构研究土木工程专业论文.docx
- 多策略英汉词对齐技术的研究计算机应用技术专业论文.docx
- 不同形貌大粒径集成胶乳的调控制备研究高分子材料专业论文.docx
- usbotg双重角色设备接口的设计通信与信息系统专业论文.docx
- 爆破地震累积效应理论和应用初步研究-采矿工程专业论文.docx
- 曲靖市大山煤矿设备管理信息系统的设计与实现软件工程专业论文.docx
- 高压信号发生器及其带载能力分析电机与电器专业论文.docx
- 单纯性肥胖者胃排空近端胃功能胃电活动胃肠激素和电针刺激的研究内科学专业论文.docx
- 食管鳞状细胞癌肿瘤病理长度的预后和预测意义肿瘤学专业论文.docx
- 光学系统中光阑对激光传输特性影响研究光学工程专业论文.docx
- 电化学氢化物发生系统电极性能优化及其在原子光谱中的应用研究分析化学专业论文.docx
- 洞庭湖退田还湖区钱粮湖垸景观格局土壤质量与土地承载力研究生态学专业论文.docx
最近下载
- 浙江省2025年普通高校招生体育类第一段平行投档分数线.xls VIP
- docker面试常见问题.docx VIP
- 黑龙江中医药大学《马克思主义基本原理》2020-2021学年第一学期期末试卷.pdf VIP
- 具身智能的基础知识(68页).pptx VIP
- SMT贴片机基础培训 (西门子).pptx VIP
- 游戏资料:哥特王朝救世军完全任务攻略.docx VIP
- 生理学之消化和吸收.ppt VIP
- 二年级上册科学教案-1.2.土壤——动植物的乐园-教科版(2017).doc VIP
- 专题03有理数的运算8大题型(期中真题汇编,湖北专用)七年级数学上学期人教版2024【附答案】.pdf
- 第七章 软饮料工艺ppt课件.ppt VIP
原创力文档


文档评论(0)