CN114116293B 一种基于MPI-IO的MapReduce溢写改善方法 (中山大学).docxVIP

CN114116293B 一种基于MPI-IO的MapReduce溢写改善方法 (中山大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114116293B(45)授权公告日2025.07.01

(21)申请号202111208323.6

(22)申请日2021.10.18

(65)同一申请的已公布的文献号申请公布号CN114116293A

(43)申请公布日2022.03.01

(73)专利权人中山大学

地址510275广东省广州市海珠区新港西

路135号

(56)对比文件

CN112037874A,2020.12.04审查员任洪潮

(72)发明人卢宇彤颜承橹陈志广刘志勇

(74)专利代理机构广东南北知识产权代理事务所(普通合伙)44918

专利代理师李思坪

(51)Int.CI.

GO6F11/07(2019.01)

权利要求书2页说明书6页附图5页

(54)发明名称

一种基于MPI-IO的MapReduce溢写改善方法

(57)摘要

CN114116293B本发明公开了一种基于MPI-I0的MapReduce溢写改善方法,该方法包括:Map端MPI进程从目标文件读取数据集切片;Map端MPI进程运行Map任务,对数据切片做映射处理并对映射处理结果进行分区,得到分区后的键值对;判断到映射处理结果大小超出内存容量阈值,Map端执行溢写操作,将分区排序后的键值对并行溢写到同一磁盘文件上,得到溢写处理结果;Reduce端MPI进程拉取Map端的溢写处理结果并使用Reduce任务对键值对做归约处理,得到Reduce处理结果;Reduce端将Reduce处理结果写入磁盘。本发明通过并行写一个大文件的方法将多个MPI进程的IO请求聚合,减少了大量的文件读写,同时还能避免过多中间文件的产生,缓解了元数据服务器的

CN114116293B

Map

Map端MPI进程读取数据集切片,

使用Map任务对数据切片做映射处理,并对处理结果进行Shuffle

Map端将结果并行溢写到磁盘文件上

Reduce端接收Map端的处理结果,使用Reduce任务对数据做归约处理

将Reduce处理结果写入磁盘

CN114116293B权利要求书1/2页

2

1.一种基于MPI-IO的MapReduce溢写改善方法,其特征在于,包括以下步骤:

S1、Map端MPI进程从目标文件读取数据集切片;

S2、Map端MPI进程运行Map任务,对数据切片做映射处理并对映射处理结果进行分区,得到分区后的键值对;

S3、判断到映射处理结果大小超出内存容量阈值,Map端执行溢写操作,将分区排序后的键值对并行溢写到同一磁盘文件上,得到溢写处理结果;

S4、Reduce端MPI进程拉取Map端的溢写处理结果并使用Reduce任务对键值对做归约处理,得到Reduce处理结果;

S5、Reduce端将Reduce处理结果写入磁盘;

所述判断到映射处理结果大小超出内存容量阈值,Map端执行溢写操作,将分区排序后的键值对并行溢写到同一磁盘文件上,得到溢写处理结果这一步骤,其具体包括:

S31、判断到映射处理结果大小超出内存容量阈值,在磁盘上创建r个溢写文件;

S32、每个MPI进程产生r个将映射处理结果中r个分区的键值对写入磁盘的IO请求;

S33、MPI-IO将不同MPI进程中写往同一溢写文件的I0请求进行聚合;

S34、基于MPI-I0中间件向系统发起POSIXAPI调用,根据MPI进程的进程号和写文件偏移量,将不同MPI进程内属于相同哈希分区的键值对写到溢写文件的不同区域;

S35、返回步骤S33直至Map操作生成的所有映射均已写完;

S36、将溢写文件内的键值对根据键值进行排序,并对相同键值的数据进行规约,得到溢写处理结果;

在使用MPI-IO接口进行文件的并行写时,每个MPI进程将写入的文件头、绝对偏移量、数据大小、数据类型和进程状态发送出去,由MPI-IO接口统一管理。

2.根据权利要求1所述一种基于MPI-IO的MapReduce溢写改善方法,其特征在于,所述Map端MPI进程从目标文件读取数据集切片这一步骤,其具体包括:

S11、从分布式文件系统查询并缓存目标数据集的元数据;

S12、MPI根进程根据目标数据集大小和预定义的数据切片大小,计算出目标数据集被切分后的数据切片总数;

S13、MPI根进程将数据切片大小和切片总数广播给组内的其他MPI进程;

S1

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档