大数据技术在CIMS监测和分析海量工业数据中的应用.docVIP

下载本文档

3
0
约4.64千字
约 8页
2016-12-14 发布于北京
举报
版权申诉

大数据技术在CIMS监测和分析海量工业数据中的应用.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据技术在CIMS监测和分析海量工业数据中的应用　　【摘要】为解决现有工业数据处理方案的不足，将大数据技术引入到CIMS的监测和分析中；借助消息中间件完成HDFS分布式环境下的可靠通信，并利用Hadoop的MapReduce框架保证监测和分析的实时性。另外，还借助系统动力学方法对要建立的CIMS监测和分析平台进行建模，以分析监测和分析平台的瓶颈，提高监测和分析性能。　　【关键词】大数据 HDFS MapReduce CIMS 　　一、研究背景　　工业化和计算机技术的发展，使制造系统每天产生的数据量不断增加，整个制造业产生的数据量远高于其他行业[1]。面对日益复杂的制造业生产系统，通过保存其运行过程中的中间数据，并对数据进行研究，能够解决当前的系统建模手段无法解决的问题。传统的数据分析方案一般先将数据保存到关系型数据库中，然后借助联机分析、处理等手段为决策提供支持[2]。　　当面对制造业的海量数据时，可能会有如下缺陷[3]：　　（1）数据来自不同地区的工作站、传感器等，而且数据格式不统一，既有结构化数据，也有非结构化数据，不利于处理；　　（2）联机分析处理过程中会有大量的数据移动操作，当数据量达到PB级时，大量数据移动造成的开销变得难以接受。　　因此，有必要研究并实现一个能够合并存储异构数据、并且可以完成基于大数据的CIMS数据分析处理的平台。本文将Hadoop大数据技术引入到CIMS海量工业数据的监测和分析中。　　二、研究现状　　范剑青[4]阐述了大数据独有的特点，说明大数据提供的海量数据给统计、处理以及统计估算和检验带来的问题。Jiang 等人[5]对电子商务网站的大量商品数据进行分析处理，提出了基于Hadoop的协同过滤算法。　　Duke能源公司模拟大数据解决方案，使维护专家远程观看设备和记录异常指数，甚至可以及时采取纠正操作，但还不能真正实现大数据分析和处理平台。通用电气（GE）于2013年推出其大数据分析平台，用以将云平台中的工业机器产生的海量数据转化为实时信息，此平台可以认为是第一个能够真正管理工业海量数据的平台，但是难以处理来自多个数据源的数据。美国国家仪器公司和IBM联手推出InfoSphereStreams大数据解决方案，能够以很高的数据吞吐率分析来自多个数据源的信息，但其处理带有一定的数据延时，实时性不佳。　　为解决海量数据处理时的实时性问题，本文拟采用开源的Storm流处理技术，并借助类SQL和Piglatin等过程化语言扩展，以实时监控整个大数据平台。　　三、大数据技术在CIMS监测与分析平台中的设计　　工业应用数据在数据量上远超普通应用，其海量数据存储的要求超过了传统的关系型数据库的存储能力。另外，工业应用数据也由传统的结构化数据扩展到结构化、半结构化以及非结构化数据并存，对这些数据格式以及数据类型都存在不同的工业数据进行采集、分析和处理的方式有别于传统方式，因此需要对监测和分析平台进行设计，从软件结构、通信方式以及数据存储方式等各个方面进行分析。　　3.1 CIMS海量数据监测与分析平台的设计　　在将大数据技术应用于CIMS海量数据的监测与分析时，海量的工业数据不再存放在传统的关系型数据库，而是存放到HDFS分布式文件系统上。因此，软件结构设计要与Hadoop的HDFS文件系统相对应。　　3.1.1 软件结构　　本文设计的CIMS海量工业数据监测和分析平台（以下简称“平台”）采用Master-slave主从架构，Hadoop集群的NameNode节点作为监测和分析平台的管理节点，完成数据采集、数据分析等各功能的功能模块是工作节点。管理节点管理整个集群的相关信息，并维护包括节点的主机名、IP地址等机器状态。工作节点可以根据工业应用的需求进行灵活的配置，也可以动态增加或减少。　　平台主要分为如下部分[6]：客户端、消息中间件、数据查询模块、数据分析模块、数据采集模块以及Hadoop集群。客户端接收用户请求，向平台发出任务请求；数据采集模块、数据查询模块以及数据分析模块是平台的功能组件，分别提供工业大数据分析流程中的对应功能[7]：数据采集模块对外提供数据的访问接口，其功能是从不同的数据源获取数据，并将这些数据存储到Hadoop的HDFS文件系统上。　　数据查询模块从HDFS文件系统中查询数据的存储索引，并返回给数据分析模块；数据分析模块中实现不同的数据分析配置方法，并交由MapReduce框架分布式地实现数据分析任务。　　3.1.2 系统功能模块　　平台中监测和分析的数据一般都是离散数据，所以选择消息中间件作为通信管理模块，消息中间件实现平台中各个模块间的通信。　　以功能节点上线为例，由于管理节点存储了