基于HDFS的分布式区域电子病历存储策略.docVIP

下载本文档

5
0
约4.58千字
约 7页
2016-09-04 发布于北京
举报
版权申诉

基于HDFS的分布式区域电子病历存储策略.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HDFS的分布式区域电子病历存储策略.doc

基于HDFS的分布式区域电子病历存储策略　　摘要：区域医疗信息化平台的建设和推广是目前医疗信息化发展的一个重要方向和研究热点。在平台建设过程中，首先面临的问题是解决如何在基于Hadoop的云计算环境中，高效地操作和存储电子病历等小文件。针对这一问题，提出一种基于AHP方法的存储策略，利用Hadoop系统自身的Sequence File技术将小文件以队列的形式合并为大文件，从而节省了Master Node用户文件管理所占的内存空间，同时通过OQ队列保证了系统在合并文件之后对小文件操作的透明性。仿真实验表明该策略在不影响云计算系统运行状况的基础上，可提高小文件的存储效率。　　关键词：HDFS；云计算；电子病历；层次分析法；文件合并　　DOIDOI：10.11907/rjdk.151191 　　中图分类号：TP301 　　文献标识码：A 文章编号2015）006003003 　　基金项目基金项目：深圳市科技创新委员会项目（20120618102906924）　　作者简介作者简介：伍贵富（1963-），男，四川资阳人，博士，深圳市福田区人民医院教授，研究方向为医疗信息化。　　0 引言　　随着计算机网络与信息技术的快速发展，以及国际医学信息标准化、电子化进程的推进，使区域医疗信息化平台的建设和推广成为可能。电子病历系统（EHRS）[1]作为医疗信息化平台的重要组成部分，受到越来越多人们的关注。　　在众多云存储的研究中，Hadoop项目的分布式文件系统HDFS作为Google File System 的开源实现已成为业界研究云计算、实现云服务的参考模型。因此，本文也将Hadoop系统作为云服务的基础架构，研究如何将云服务的优势与区域医疗信息化平台相结合，利用云平台的计算能力和存储能力为电子病历、区域PACS等系统提供相关服务。　　由于HDFS文件系统中的每个目录和文件的相关数据信息都存放在各云服务节点的内存中，当系统中存在大量的小文件（通常指那些远小于HDFS默认数据块大小的文件）时，则会降低整个存储系统的存储效率和存储能力。为了解决HDFS文件系统中小文件的存储效率问题，目前的主流方案是将小文件合并或组合为大文件，采用的方法大致可分为2类[2]，一类是基于Hadoop archive技术实现小文件合并的方法，另一类则是针对具体的应用而提出的文件组合方法。例如文献[3]结合WebGIS访问模式的特点，将系统中的小文件组合为大文件并为其建立全局索引，以提高小文件的存储效率；而文献[4]中假设每个HDFS系统用户被分配了固定存储空间和文件数目，并利用Hadoop提供的harballing技术对文件进行合并，以提高了系统中元数据的存储效率。　　这些研究工作取得了一定成绩，但是没有从系统角度考虑在提高小文件存储效率的同时，如何优化云计算系统的负载状况。因此，本文主要研究了在基于Hadoop的架构中，如何将电子病历等小文件进行存储优化的同时，保证云平台整体负载均衡的问题。并提出了一种基于层次分析法（AHP）的文件存储策略，通过引入与系统状态关联的特征值判断规则，来优化系统对小文件进行合并执行的时间，防止系统负载过高，以保证在运行小文件较多的情况下，云服务平台的整体性能不会受到太大影响。仿真实验表明了该方法具有较好的性能。　　1 基于HDFS的区域电子病历存储策略设计　　1.1 HDFS 文件系统　　作为Hadoop 系统中的一个核心组件，HDFS系统通常由一个Name Node节点和一定数目的 Data Node节点组成。Name Node是HDFS文件系统的中心服务器，在Hadoop架构中通常由Master Node担任，主要工作是负责管理文件系统的名称空间。而数据节点都是由单台计算机负责，每个节点负责管理自身的数据存储服务。　　在实际应用中，发现综合性医院的电子病历的相关数据具有高吞吐量的特点，因此本文设计电子病历在云平台中创建之后，并不立即保存到HDFS文件系统中，而是经过一定周期之后，由系统自动提交保存病历数据的请求。由于采用XML格式的电子病历数据量相对较小，因此本文借鉴了文献[4]、[5]的思想，对电子病历等小文件的存储策略进行优化，以提高对数据的处理效率。本策略为每个用户文件建立了2种队列：第1种为序列文件队列（Sequence File queue，SFQ），第2种为序列文件操作队列（Operation queue，OQ）。其中，SFQ用于小文件的合并，OQ用于对合并后小文件的操作。通过实验设定每种队列的动态合并阈值，当系统中所存的文件数量超过设定的合并阈值后，Name Node将按层次分析法（AHP）判断是否进行文件合并，并在系统负载允许的情况