- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的文本语句向量算法实现.PDF
数据库技术 • Data Base Technique
基于MapReduce的文本语句向量算法实现
文/周宁 向阳
以及将其利用到分布式的环境下计算成为应用 负责把分解后将上述多个子任务处理并把结果
文本语句向量算法是针对文 研究的热点。 记录和汇总起来。
摘
本语句元素提炼成为向量进行计
文献 [1] 中提出文本语句向量算法是基于 MapReduce 的编程模型原理是定义一个
要 算的一种文本比对算法,但是在
处理海量数据和高维度矩阵时由 向量空间模型的基础,将文本的语句元素抽 key,value 值对分解和得出的结果进行映射的
于内存和 I/O 等资源的局限,该 象成为向量的坐标数值形成矩阵组进行余弦 迭代计算过程,即利用一个输入 key,value
算法受到极大的影响。针对文本
夹角等计算,其串行计算方法处理海量数据 集合来产生一个输出的 key,value 集合的
语句向量的相关特点,提出了基
于 MapReduce 模型的实现文本语 时能力存在局限性,时间复杂度比较高。巨 计算过程。具体在 Map 阶段,由用户根据需
句向量算法的方法,Map 函数完 大的计算量、内存占据以及频繁的 I/O 操作使 要定义划分的大小、处理结束条件等基本准
成对向量的划分和文本的解析,
Reduce 函数完成文本语句属性 得传统的单机系统在功能和性能上都难以达 则后,将输入的数据分割为固定大小的片段
的比对和结果的新构建。实验结 到预期效果。将程序并行执行可以有效地结合 (splits ),然后将分割的新 splits 赋予新的
果表明:在大数据的环境下使用
MapReduce 模型的特征,利用模型优势提高高 key,value 值进行中间计算,结合计算得到
MapReduce 并行算法模型的文本语
句向量计算效率性和可拓展性有 维矩阵的计算进度,使得计算一般文本的步骤 的 key,value 值根据 key 值进行排序,相同
进一步的提升。 更加趋于程序化。其中在 MapReduce 模型中 的key 值的 value 列表,形成新的 key,value
运用成熟架构和分布式的理念实现了内存、I/ 值,并进行赋值。如此循环便形成 MapReduce
O 和数据交换同步和互斥操作等问题,在方法 的迭代。最后再根据key 值的范围将这些元组
【关键词】文本比对 海量数据 高维度矩阵 上更有利于分布式的资源强大发挥作用。 进行分组,对应不同的 Reduce 任务。其中根
MapReduce模型 据计算模型决定迭代的结束条件,而考虑复
2 MapReduce编程模型
杂条件等因素,一般 value 的值取 0 或 1。在
MapReduce 是 Google 提出的一个软件架 Reduce 阶段,Reduce 任务处理器把 Map 阶段
1 引言 构,用于大规模数据集(大于 1TB)的并行
文档评论(0)