- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种面向流数据分布式实时存储方法
一种面向流数据的分布式实时存储方法
摘要:随着物联网建设的不断发展,以实时传感数据为基础的各类流数据如何及时快速存储已成为当前急需解决的问题。面对连续不断到达的数据流,数据流存储系统必须及时快速将其存储到持久化介质中。针对这一需求,本文提出了一种基于缓存的分布式实时存储方法DRS。DRS方法依据窗口阈值,不间断地从缓存区接收数据,并结合一致性哈希算法将数据分布存储到数据服务器中。实验表明,该分布式存储方法能够实时地将数据存储到持久化介质中。
关键字:流数据;实时存储;阈值;一致性哈希
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)19-0005-02
1引言
随着物联网建设地不断发展,流数据逐渐成为信息化系统中一类关键数据形式。该类数据如何及时存储已成为当前物联网应用建设中的一个重点。对于实时数据存储系统而言,首先要确保数据及时存储,从而保证数据的实时性。由于数据延迟存储,造成数据处理的非正确性,做出错误的决策。
以一个物联网环境下的地铁站交通监管数据流存储任务为例,该任务需要监管以下几类数据:1)客流;2)基础设施:扶梯,售票机,防火设备,照明灯等;3)车流:地铁,公交车,出租车等。收集并将该流数据及时存储。在该背景下,设计一种实时存储方法成为必要。
2交通枢纽实时监管系统
交通监管系统通过具体设备进行数据监测,存储,处理,对交通事件做出及时具体的措施。该系统采用了分布式的并行架构。其结构如图1所示。
3DRS方法的基本思想
车辆实时监管系统分布式架构中需要存储大规模实时数据,而这些数据具有实时性,高速性,因此我们提出的存储方法首要考虑存储的实时性。DRS方法的基本思想如下:
利用Map Reduce思想设计DRS方法,其方法的设计思路:数据接收阶段对数据做简单的划分工作,数据写入阶段则对已划分数据进行处理。以车流数据为例,当数据接收区监听到数据缓冲区有数据时,数据接收区开始接收数据。接收数据的同时,存储程序生成多个存放数据的队列,根据数据的时间标示,将该条数据放置到对应的队列中。当队列中数据到达到窗口阈值后,数据写入区解析存储该队列中的数据。各个队列中数据对象发送给各个数据写入区,数据写入区解析各个数据对象,将其同时存储到不同数据服务器中,实现高速率数据快速存储。
窗口阈值采用时间和数量阀值,当发送的数据在规定的时间阀值到达之前已经达到数量阈值,则立即将该部分数据进行解析存储,反之亦然。
4DRS方法的实现
4.1数据划分策略
各个队列中数据对象在内存中采用链表结构存储。根据第三节对DRS方法思想的描述可知,数据接收阶段接收数据的同时要对数据进行划分操作。该方法使用数据的唯一标示划分数据,将该条数据划分到对应的数据队列中。以车流为例描述该划分策略:首先,获取该条数据的时间戳属性值,进行hash直接取余,根据hash值将该条数据放置到对应的队列中。
当某个队列数据满足某个窗口阈值时,数据接收区会给数据对象加上标示key。每个数据写入区只负责某个队列数据对象的解析存储。
4.2数据写入
数据接收区将该段时间内的数据划分后,数据写入区接收分片数据。使用一致性哈希算法将各个分片数据有组织地存储到数据服务器中。每个服务器节点可以对等均匀地分布数据。
使用一致性哈希计算时,数据写入区将数据写入到哪台数据服务器不仅仅依赖标示key本身而将数据服务器的配置(IP地址或者机器名)也参与hash运算。单个数据服务器节点只需要专注于自身存储工作,从而实现将复杂的分布式架构逻辑与单个服务节点数据处理相分离,最大限度地利用现有的数据库存储技术。
数据存储流水线可以看做一个由数据监测,数据接收,数据划分,数据写入四个部分组成的串联系统。初始化数据发送速率,队列划分个数和窗口阈值大小,运行存储程序。
4.3DRS方法实现
基于上述理论,该DRS方法的实现如下:
首先,首先给几类流数据设定标示,如给流数据设置属性值,并配置其值,然后通过属性值将数据分类,即拥有相同屙性值的数据为相同类。
其次,数据处理机对某类数据处理之后,结果集也赋予相同的Attribute value值,将其一起发送到数据缓冲区,最后,存储程序对接收的数据进行存储,流程如下:
传感设备发送数据或者数据处理机发送数据时,首先将数据发往数据缓冲区;
(1)数据接收区一直监听数据缓冲区的数据,监测到数据缓冲区中有数据,则开始接收数据并初始化存放数据的队列;
(2)如果数据缓冲区监测没有此类数据的到来,则一直等待,直到发送端发送数据;
(3)存储程序根据时间戳属性计算出该条数据发往的对应队列;
您可能关注的文档
最近下载
- 牙合架、面弓 培训专用.ppt VIP
- 谐音背单词联想记忆七天背完高中单词打印版.docx VIP
- 八年级语文上册新教材解读课件(统编版2024).pptx
- 建设工程监理质量管理体系技术和档案管理制度汇编样本.doc
- GB 30251-2024 炼化行业单位产品能源消耗限额.pdf VIP
- 香精香料基本知识培训课件.pptx VIP
- 《中华优秀传统文化》教案 第16课 商贸文化.docx VIP
- Unit 5(第1课时 Section A 1a-1d)(教学设计)七年级英语上册(人教版2024).pdf VIP
- 人教版中考英语单词巧记妙背三(单词句子图片结合记忆)课件.pptx VIP
- 第6课 从小爱科学 第1课时(教学设计)2025统编版道德与法治三年级上册.pdf
文档评论(0)