SRP结题报告唐伟志.docxVIP

下载本文档

3
0
约7.06千字
约 12页
2017-08-10 发布于重庆
举报
版权申诉

SRP结题报告唐伟志.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

SRP结题报告唐伟志

SRP结题报告基于分布式存储的实验数据采集和管理系统学院电子信息工程班级2012级电信3班姓名唐伟志学号201230283014指导老师徐向民实施时间2014.1-2014.111.绪论1.1研究背景在信息技术不断发展下，人们认识到了数据本身的价值，“大数据”在商业应用中取得了巨大的成功。在智能信息处理的研究中，我们主要通过算法对数据进行理解和感知，在研究过程中会采集和产生大量数据，如声音、视频、算法结果等，以往这些数据大部分会被作为无用数据丢弃，只保留部分实验结果。本项目拟使用当前非关系数据库、分布式文件系统等技术，建立智能信息处理中实验产生数据的采集及存储平台，将数据存储，以便后续更强大的算法和计算资源进行分析处理。1.2学生参与研究主要内容开发基于分布式存储的实验数据采集和管理系统，用于采集和存储各类试验中产生的数据，方便随时获取和查阅，同时为后续更大规模的算法统计和处理做准备，详细包括：（1）、智能信息处理相关研究中各个环节数据的高效、方便的采集；（2）、采集到数据的智能化处理，如标记、分类、压缩等；（3）、搭建分布式存储系统，用于存储相关数据，并尽量能适应未来大规模并行算法的一些需求特点；（4）、开发Web应用，能进行方便的数据查阅和获取。1.3预期目标搭建基于分布式存储的实验数据采集和管理系统的小规模示范系统。2.分布式文件系统概述2.1分布式文件系统简介分布式文件系统（Distributed File System）是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。在这样的文件系统中，客户端并非直接访问底层的数据存储区块，而是通过网络，以特定的通信协议和服务器沟通。借由通信协议的设计，可以让客户端和服务器端都能根据访问控制列表或是授权，来限制对于文件系统的访问。相对地，在一个分享的磁盘文件系统中，所有节点对数据存储区块都有相同的访问权，在这样的系统中，访问权限就必须由客户端程序来控制。分布式文件系统可以包含的功能有：透通的数据复制与容错。也就是说，即使系统中有一小部份的节点脱机，整体来说系统仍然可以持续运作而不会有数据损失。综上所述，分布式文件系统所拥有的透通的数据复制以及可靠的容错性，十分适合用于实验数据采集和管理系统。2.2分布式文件系统的选择当前比较流行的分布式文件系统包括：Lustre：lustre是一个大规模的、安全可靠的，具备高可用性的集群文件系统，它是由SUN公司开发和维护。该项目主要的目的就是开发下一代的集群文件系统，可以支持超过10000个节点，数以PB的数量存储系统。Hadoop：hadoop并不仅仅是一个用于存储的分布式文件系统，而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的框架。NFS：网络文件系统是FreeBSD支持的文件系统中的一种，也被称为NFS。NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS，用户和程序可以象访问本地文件一样访问远端系统上的文件。在实际搭建中，主要考虑使用Apache Hadoop，Hadoop可以配合云计算处理OpenStack使用，开源，文档资料比较丰富，现在已经广泛投入生产使用，也能够满足项目后续更大规模的算法统计和处理的要求。3.Apache Hadoop简述及安装3.1 关于Apache HadoopApache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成，由开源社区维护。Hadoop框架透明地为应用提供可靠性和数据移动。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。3.2 Hadoop基础架构Hadoop被定位为一个易于使用的平台，以HDFS、MapReduce为基础，能够运行上千台PCServer组成的系统集群，并以一种可靠、容错的方式分布式处理请求。下图显示Hadoop部署结构示意图在Hadoop的系统中，会有一台master，主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台slave，每一台slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。3.3 Hadoop处理流程Hadoop主要靠MapReduce进行处理处理。Map