基于mapreduce的相似性连接分析-计算机应用技术专业论文.docxVIP

基于mapreduce的相似性连接分析-计算机应用技术专业论文.docx

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于mapreduce的相似性连接分析-计算机应用技术专业论文

宁波 宁波大学硕士学位论文 基于 基于 MapReduce 的相似性连接研究 万方数据 万方数据 万方数据 万方数据 基于 MapReduce 的相似性连接研究 摘 要 随着 社会网 络、移 动应用 及在线 服务等 信息技 术的广 泛应用 和不断 发展,数 据呈 爆炸式 增长,海量 数据的 分析需 要强大 的计算 能力 。相似 性连接 作为数 据分 析的 一个基 本操作,在相 似搜索 、数据 挖掘上 它可被 用来大 幅度地 提高 计算速 度, 提升 计算效 率。相似 性连接 类似于 数据库 连接,不同 点在于,相似 性连接 是针对 不同 的数据 类型,采用 相应的 度量函 数以及 阈值限 定 ,通过 函数度 量后再 做相应 的连 接操作 。 单 台计 算机 的处 理能 力以 及传 统的 技术 架 构已 经很 难满 足海 量数 据处 理的 计 算 要 求 , 但 是 MapReduce 软 件 框 架 的 出 现 为 海 量 数 据 下 的 相 似 性 连 接 带 来 了 曙 光。目前 ,MapReduce 下相 似性 连接技 术已经 取得 了较好 的研究 成果 ,但仍 存在 一些 问题:处理 速度仍 不够快 、处理 数据类 型较单 一、不能 有效处 理动态 数据等 等。针对 数据处 理速度 的问题 ,本文 提出 了改进 的基于 划分的 算法和 改进 的基于 前缀 过滤的 算法,可以 提高相 似性连 接的计 算效率 。以下 是本文 的主要 研究内 容: 1、 采用 分而 治之的 策略,借鉴 QuickJoin 算法 ,本文 提出 了改进 的基于 划分 的算 法(MRSJ_PDS 算法 ),将海 量数 据分解 为若干 个规 模较小 的数 据集,并分 散至 MapReduce 分布 式集群 上,再进 行相应 的相似 性连接 操作 。主要 内容有:(1) 进行 数据的 划分操 作之前,对原 始数据 集进行 采样 ,采用 聚类算 法计算 出有效 的 聚类 中心(亦即 中枢 ),再根 据有效 中枢 将原始 数据集 划分 并形成分区(其大 小 未超 过单个 节点上 能计算 的块大 小)。同时 ,为了 有效并 充分利 用计算 过程中 产 生的 数据, 避免对 数据进 行多次 重复计 算。本 文采用 索引技 术存储 中间数 据,即 为满 足条件 的分 区建立 K-D 树索 引,进而 获取所 有相 似对。实验 证明,该方 法能 够有 效减少 数据的 划分次 数,并有 效地降 低了相 似对验 证的频 率,与之 前的算 法 进 行 比 较 该 算 法 的 运 行 效 率 有 明 显 的 提 升 。 ( 2) 在 现 实 世 界 中 广 泛 存 在 着 动 态 数据 ,可以 将部分 数据作 为原数 据集上 新增数 据,针 对新增 数据的 相似性 操作, 本文 设定了 相应的 分配原 则,每个 新增数 据会进 入到对 应的分 区,最终 获取新 增 数据 的相似 对。 -I- 2、 在侦 查近重 复网 页、屏蔽 恶意广 告、推荐 相似用 户等 应用中 ,集合 相似性 连接 技术被 广泛使 用。通常 ,集合 相似性 连接技 术采 用过滤 -验证 这样的 计算框 架, 利用 前缀 过滤剪 枝技术 缩短 候选集 列表,但是 在 MapReduce 平台 下,这样 的算 法 会产 生大量 的候选 集,增加 相似对 的验证 时间 。本文 提出了 改进的 基于前 缀过滤 的 MapReduce 相 似 性 连 接 算 法 ( MR_MinPrefix 算 法 ) , 利 用 最 小 前 缀 过 滤 技 术 对 token 索 引 列 表进 行 更 好 的 剪枝 操 作 , 降 低候 选 集 生 成 的 代价 , 并 保 存 记录 的 相关 信息到 指定文 件中,便于 后续到 来数据 的相似 性连接 。在新 增数据 相似性 连 接操 作时,采用 传播延 迟策 略 ,延迟 更新全 局 token 频数 、索引 列表等 相关 信息, 最终 获取所 有相似 对。 关键词:相似性连接, 海量数据, MapReduce -II- The Research of Similarity Join Based on MapReduce Abstract With the wide application and the development of information technology, such as the social network, mobile applications and online services, which cause the data increasing explosively, the analysis of huge data needs p

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档