石油地震勘探及其大数据快速存储技术研究介绍-Indico.PPT

石油地震勘探及其大数据快速存储技术研究介绍-Indico.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
石油地震勘探及其大数据快速存储技术研究介绍-Indico

报告人:韩昭 核探测器与核电子学国家重点实验室(科大部) 2013年5月3日 * 石油地震勘探及其大数据快速存储技术研究介绍 * 石油地震勘探简介 石油地震勘探是指利用仪器检测、记录人工激发地震的反射波、折射波的传播时间、振幅、波形等,对地层界面、岩土性质、地质构造进行成像分析。 人造地震是现在最重要的一种油气勘探方法。 * 石油地震勘探简介 地震石油勘探的特点与发展趋势: 1、在地震数据处理中,利用检波器采集的数据对地质结构成像分析。地震数据有很大的噪声,检波器排布越密集,可以得到越准确的地质结构。 2、为了勘探更深处的油气,探测设备覆盖的范围越来越广。 3、因为上述原因,现在地震勘探使用的地震仪器,达到了万道量级,有些勘探公司已经做到了十万道,并且提出了百万道的目标。 * 石油地震勘探中要解决的问题 对如此大规模的地震勘探设备,在前端的数据采集传输,后端的数据存取都要面临很多问题 1、数据采集传输中的问题 (1)大量节点的管理 (2)数据可靠传输 (3)供电 (4)低功耗 (5)节点同步 * 石油地震勘探中要解决的问题 2、数据存取处理中的问题 (1)近年来处理器的能力随着半导体工艺的发展进步很快,比如,主流PC的CPU主频已经达到3GHz以上,服务器CPU大都达到十核以上。然而提供数据存储的仍然是传统的磁介质硬盘,它的性能却提高很有限。很多文献资料表明IO速度已经成为制约数据处理过程的一个瓶颈。 (2)地震数据采集中,原始数据是记录在磁带中的,进行数据处理时,会将磁带中的数据按一定的格式存储在硬盘中。现阶段由于检波器数目的增大地球物理勘探所产生的数据量越来越大,大都达到了TB甚至PB的量级,这对于后端的大数据处理产生了巨大的压力。在一些地震数据处理的过程中数据分发所用的时间已经和数据处理所花费的时间基本相当。 (3)地震数据处理的过程中,需要对各种不同的数据组合进行读取分析,大部分情况下,这些数据都离散的分散在文件中,并不是连续的,这些离散的数据会导致数据获取的速度大大降低。 (4)本人主要工作是解决这一部分的问题。 * 离散数据存取速度慢的原因 事实上,硬盘读出数据的速度并不慢,但受到机械运动因素的影响,寻道时间非常慢。 对于8KB数据,数据读取时间约为0.05ms 平均寻道时间约为 9ms 平均寻道时间数据读取时间 对于机械式硬盘,最影响速度的是随机访问。然而地震的数据需要不同的组合,绝大部分是随机的小数据访问模式。 解决办法,多硬盘有效并行工作 * 磁盘阵列 磁盘阵列(Redundant Arrays of Inexpensive Disks RAID),利用数组方式来作磁盘组,在一定程度上实现了数据的分布存储,可以达到并行,增加IO的作用。 * 传统的地震数据存取方式 以POSIX为代表的基于文件系统的存储是现在大多数实验中大数据的存储模式。 地震数据按照一定格式存储在文件中,典型的访问函数为open文件,seek到特定的位置,read一定长度的内容。POSIX标准是以一种流(stream)的串行的方式来访问数据存储区的。 * 磁盘阵列存在的问题 磁盘阵列并没有抛弃传统的串行的文件系统存储方式,每个硬盘并不知道自己的数据,这些需要上层的串行命令,并靠RAID控制器分发实现。而这一过程是串行的,在硬盘数量不断增加的情况下,会成为阻碍性能的瓶颈。 其次,RAID是一种通用的存储设备,并不理解数据的含义,只是固定长度的切割,这也会造成性能的下降。 因为磁盘阵列并没有实现硬盘与硬盘之间的完全独立,因此很难实现太大规模的并行。 * Google提出的key-value存储模式 完全抛弃了POSIX的访问模式,把每一个数据(value)打上一个key标签,然后作分布式的存储。需要访问数据的时候以key为关键字进行检索,可以同时有很多的客户端同时响应,从而实现并发访问。 * Key-value面临的最大问题 因为与传统的以文件系统为基础的数据存储方式差异太大,提出的主要应用对象是针对数据库的应用。 很多已经成熟的软件应用无法直接使用key-value模式,即使重新移植风险也太大。这是因为key-value模式与传统的数据存储方式,底层操作差别太大,需要对原本成熟的应用程序进行大量修改。 * 我们提出的iSmartDisk方案 基于key-value的思想,提出了iSmartDisk的分布式存储模式,把实验数据分布的存储在用internet连接起来的具有CPU控制的硬盘上,访问时,利用Key-value的方式,向各个节点分发需要的数据的标签。所有节点并行的查找,提供自己的数据。在提供快速IO并发访问的同时,对现有的大型应用程序保持兼容。 * iSmartDisk初步测试结果 系统测试结果,IO性能同节点数呈线性增长

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档