基于MapReduce的文本语句向量算法实现.PDF

下载文档 降价啦

2
0
约1.7万字
约 4页
2019-08-18 发布于天津
举报
版权申诉
保障服务

基于MapReduce的文本语句向量算法实现.PDF

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据库技术 • Data Base Technique 基于MapReduce的文本语句向量算法实现文/周宁向阳以及将其利用到分布式的环境下计算成为应用负责把分解后将上述多个子任务处理并把结果文本语句向量算法是针对文研究的热点。记录和汇总起来。摘本语句元素提炼成为向量进行计文献 [1] 中提出文本语句向量算法是基于 MapReduce 的编程模型原理是定义一个要算的一种文本比对算法，但是在处理海量数据和高维度矩阵时由向量空间模型的基础，将文本的语句元素抽 key,value 值对分解和得出的结果进行映射的于内存和 I/O 等资源的局限，该象成为向量的坐标数值形成矩阵组进行余弦迭代计算过程，即利用一个输入 key,value 算法受到极大的影响。针对文本夹角等计算，其串行计算方法处理海量数据集合来产生一个输出的 key,value 集合的语句向量的相关特点，提出了基于 MapReduce 模型的实现文本语时能力存在局限性，时间复杂度比较高。巨计算过程。具体在 Map 阶段，由用户根据需句向量算法的方法，Map 函数完大的计算量、内存占据以及频繁的 I/O 操作使要定义划分的大小、处理结束条件等基本准成对向量的划分和文本的解析， Reduce 函数完成文本语句属性得传统的单机系统在功能和性能上都难以达则后，将输入的数据分割为固定大小的片段的比对和结果的新构建。实验结到预期效果。将程序并行执行可以有效地结合（splits ），然后将分割的新 splits 赋予新的果表明：在大数据的环境下使用 MapReduce 模型的特征，利用模型优势提高高 key,value 值进行中间计算，结合计算得到 MapReduce 并行算法模型的文本语句向量计算效率性和可拓展性有维矩阵的计算进度，使得计算一般文本的步骤的 key,value 值根据 key 值进行排序，相同进一步的提升。更加趋于程序化。其中在 MapReduce 模型中的key 值的 value 列表，形成新的 key,value 运用成熟架构和分布式的理念实现了内存、I/ 值，并进行赋值。如此循环便形成 MapReduce O 和数据交换同步和互斥操作等问题，在方法的迭代。最后再根据key 值的范围将这些元组【关键词】文本比对海量数据高维度矩阵上更有利于分布式的资源强大发挥作用。进行分组，对应不同的 Reduce 任务。其中根 MapReduce模型据计算模型决定迭代的结束条件，而考虑复 2 MapReduce编程模型杂条件等因素，一般 value 的值取 0 或 1。在 MapReduce 是 Google 提出的一个软件架 Reduce 阶段，Reduce 任务处理器把 Map 阶段 1 引言构，用于大规模数据集（大于 1TB）的并行