网站大量收购闲置独家精品文档,联系QQ:2885784924

基于MapReduce的文本语句向量算法实现.PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的文本语句向量算法实现.PDF

数据库技术 • Data Base Technique 基于MapReduce的文本语句向量算法实现 文/周宁 向阳 以及将其利用到分布式的环境下计算成为应用 负责把分解后将上述多个子任务处理并把结果 文本语句向量算法是针对文 研究的热点。 记录和汇总起来。 摘 本语句元素提炼成为向量进行计 文献 [1] 中提出文本语句向量算法是基于 MapReduce 的编程模型原理是定义一个 要 算的一种文本比对算法,但是在 处理海量数据和高维度矩阵时由 向量空间模型的基础,将文本的语句元素抽 key,value 值对分解和得出的结果进行映射的 于内存和 I/O 等资源的局限,该 象成为向量的坐标数值形成矩阵组进行余弦 迭代计算过程,即利用一个输入 key,value 算法受到极大的影响。针对文本 夹角等计算,其串行计算方法处理海量数据 集合来产生一个输出的 key,value 集合的 语句向量的相关特点,提出了基 于 MapReduce 模型的实现文本语 时能力存在局限性,时间复杂度比较高。巨 计算过程。具体在 Map 阶段,由用户根据需 句向量算法的方法,Map 函数完 大的计算量、内存占据以及频繁的 I/O 操作使 要定义划分的大小、处理结束条件等基本准 成对向量的划分和文本的解析, Reduce 函数完成文本语句属性 得传统的单机系统在功能和性能上都难以达 则后,将输入的数据分割为固定大小的片段 的比对和结果的新构建。实验结 到预期效果。将程序并行执行可以有效地结合 (splits ),然后将分割的新 splits 赋予新的 果表明:在大数据的环境下使用 MapReduce 模型的特征,利用模型优势提高高 key,value 值进行中间计算,结合计算得到 MapReduce 并行算法模型的文本语 句向量计算效率性和可拓展性有 维矩阵的计算进度,使得计算一般文本的步骤 的 key,value 值根据 key 值进行排序,相同 进一步的提升。 更加趋于程序化。其中在 MapReduce 模型中 的key 值的 value 列表,形成新的 key,value 运用成熟架构和分布式的理念实现了内存、I/ 值,并进行赋值。如此循环便形成 MapReduce O 和数据交换同步和互斥操作等问题,在方法 的迭代。最后再根据key 值的范围将这些元组 【关键词】文本比对 海量数据 高维度矩阵 上更有利于分布式的资源强大发挥作用。 进行分组,对应不同的 Reduce 任务。其中根 MapReduce模型 据计算模型决定迭代的结束条件,而考虑复 2 MapReduce编程模型 杂条件等因素,一般 value 的值取 0 或 1。在 MapReduce 是 Google 提出的一个软件架 Reduce 阶段,Reduce 任务处理器把 Map 阶段 1 引言 构,用于大规模数据集(大于 1TB)的并行

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档