一种基于序列计算的最近似K对数据搜索方案.pdf

下载文档

3
0
约2.63万字
约 6页
2015-09-20 发布于湖北
举报
版权申诉
保障服务

一种基于序列计算的最近似K对数据搜索方案.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

MicrocomputerApplicationsC01．30，No．8，2014开发应用微型电脑应用 2014年第30卷第8期文章编号：1007—757X(2014)08．0037．05 一种基于序列计算的最近似K对数据搜索方案刘义摘要：多种应用场合需要寻找给定数据库中相似度最大的前k对数据。然而，由于应用领域需要处理的数据规模呈上升趋势，计算这样的最相似k对数据，难度非常大。提出了一种基于序列计算的最相似k对数据搜索方案，首先，将所有数据对分割成多个组，然后，提出了所有数据对分组算法和核心数据对分组算法，通过单独计算每个组中的最近似k对数据，从所有组的最近似k对数据中选择相似度最高的k对数据，进而正确地确定最近似k对数据。最后基于合成数据进行实验，性能评估结果验证了本文算法的有效性和可扩展性。关键词：数据库；相似度；序列计算；数据搜索；分组中图分类号：TP391 文献标志码：A The ClosestPairsofDataSearchSchemeBasedonSerial Top．K Computation LiuYi VocationalTechnical (Dalian College，Dalianl16035，China) Abstract：Thereisawide of that the mostsimilarof ina records database． rangeapplicationsrequirefindingtop-k pairs given such isa thereisan trendof that However,computingtop—ksimilarityjoinschallengingproblemtoday,as increasingapplications todealwithvastamountsofdata．This a closestdatasearchschemebasedonserial paper expect proposestop-k pairs computation， scheme all of into thentheall andtheessential firstly,theproposedsplitsconceptuallypairspointspartitions，andpairpartitioning methodsare carl findthe closest the closestineach pairpartitioning proposed，wecorrectly top-k pairsbycomputingtop—k pairs and the closest the closestfromall the partition selectingtop—k among pairs separately pairs top-k partitions．Wefinallyperform withthe datasets。Our confirmstheeffectivenessand ofour experimentssynthetic perfo