- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高级计算机系统结构课程报告
Reviewed for BlueDBM: An Appliance for Big Data Analytics
院 系 计算机科学与技术学院
专业班级 博1501班
姓 名 王坤
学 号 D201577731
2015年 12 月 26 日
一、 论文大纲
摘要
概括本文内容,基于DRAM的存储系统虽然可以满足数据访问的需求,但是其依然存在高功耗和高成本的问题,为了解决该问题本文提出了一个名叫BlueDBM的系统架构。BlueDBM既可以带来低功耗和低成本,又可以带来高性能。
1、 引言
介绍大数据背景,并针对相应的问题提出BlueDBM系统,并简介该系统的功能和本论文的贡献。
2、 相关工作
介绍了一些数据存储和FPGA异构架构两方面的相关工作,包括RAM Cloud和Catapult等。
3、 系统架构
每一个BlueDBM存储设备通过PCIe接口插到主机中,它构成了Flash存储,一个in-store?处理器,多个高速网络接口以及一个板上DRAM。主机通过以太网或其他通用网络连接在一起。主机能通过PCIe接口来访问BlueDBM存储设备。in-store处理器能够执行数据计算。in-store处理器可以访问四个主要部件:Flash接口,网络接口,主机接口和板上?DRAM?缓冲。
3.1 Flash 接口
将多个Flash片集成在几个可以并行操作的信道上来实现高带宽。提出新的Flash管理算法包括垃圾回收、错误恢复和坏块管理等。同时把Flash管理从该设备移到文件系统或者设备驱动中。
3.2 网络接口
通过高性能串行连接将网络分层。交换机有两层,分别是内部交换机和外部交换机。从而实现低延迟和高带宽的网络接口。
3.3 主机接口
主机接口支持RPC和DMA操作来实现并行和高性能。
4、 软件接口
有三个接口可供用户程序使用,分别是文件系统接口、块设备接口和加速接口。RFS实现了FTL的某些功能,包括逻辑到物理地址映射以及垃圾回收机制。这个能以更低的内存需求而获得更好的垃圾回收效率。在BlueDBM中的文件系统接口就是采用了RFS同样的范式。为了更有效的共享硬件资源,BlueDBM运行一个调度器为竞争性的用户分配可用的硬件加速单元。
5、 硬件实现
用FPGA来实现该in-store处理器,该架构还包括Flash、主机和网络控制器。该集群由20个机架式的Xeon服务器组成,每个服务器有24个核并且有50GB的DRAM。每一个服务器有一个Xilinx?VC707?FPGA开发板通过PCIe接口连接。主机操作系统是UBuntu版本的Linux。
5.1 定制的flash板卡
用Xilinx的Artix 7 FPGA芯片来实现flash的的控制和ECC。然后该板卡通过FMC插在主机的FPGA上面。
5.2 网络接口
网络连接是用低延迟的串行收发器实现的,带宽最高可以达到8GB/s。
5.3 软件接口
用Connectal实现主机接口。Connectal的PCIe实现最高1.6GB/s读操作和1GB/s写操作。
6、 评估
6.1 FPGA资源使用率
Artix 7 芯片的查找表使用率为56%,寄存器使用率为23%,BRAM的使用率为50%,I/O引脚的使用率为46%。Virtex 7 FPGA的查找表使用率为45%,寄存器使用率为22%,RAMB36使用率为22%,RAMB18使用率为1%,这些数据说明还有Virtex 7 FPGA还有很充足的资源空间用来做加速器。
6.2 功耗
主机服务器为200W,VC707为30W,两片flash是10W,总共是240W。BlueDBM占了其中不到20%。也就是说BlueDBM为整个系统增加的功耗不足20%。
6.3 网络性能
每个hop的延迟是0.48微秒,一个节点有5个hop,所以延迟是2.5微秒,而flash访问的延迟大概是50微秒,所以只增加了不到5%的延迟。网络带宽最高可以达到8.2GB/s。
6.4 远程存储访问
该延迟由四部分组成:软件延迟、存储访问延迟、传输延迟和网络延迟。其中网络延迟都很小,传输延迟也都差不多一样。而存储访问延迟和软件延迟则与访问类型有很大的关系。
6.5 存储访问带宽
实验结果证明,为了提高flash的使用率,快速的网络、快速的主机互联和低消耗的软件是必须的。而in-store处理器可以减轻一些上面的需求。
7、 应用加速
7.1 最近邻搜索
把该算法的距离计算用in-store处理器完成。实验既比较了flash和in-store处理器带来的收益,又比较了BlueDBM和现成的S
文档评论(0)