基于大数据烟叶质量评估平台设计与应用.docVIP

基于大数据烟叶质量评估平台设计与应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据烟叶质量评估平台设计与应用

基于大数据烟叶质量评估平台设计与应用   摘 要:烟叶质量受多种因素的影响,为实现烟叶质量分析、预测和预警的平台,设计并实现了基于大数据分析和云计算技术的Web大数据挖掘平台,通过采集抓取互联网上涵盖烟叶的整个种植周期的烟叶种植区气候、环境、土壤、病虫害等信息,辅以其他检测数据,利用大数据分析技术评估和预测烟叶的质量。应用效果表明,利用大数据算法对影响烟叶质量的互联网数据进行挖掘分析,不仅可以用较小的人力物力完成更大覆盖区域的全面的烟叶质量评估,还可实现质量预测预警,为卷烟生产提供保障。   关键词:烟叶质量评估;大数据;Web数据挖掘   中图分类号:TS46   烟叶是卷烟工业企业生存和发展的基础,是对卷烟产品的发展具有制约作用的重要资源。烟叶的品质、产量水平受气温、大气环境条件、土壤以及病虫害等生态条件和生产措施因素的影响,而烟叶原料的采购又具有范围广、数量大、种类多、结构宽等特点。为保证烟叶的质量,需要对烟叶种植的整个周期进行监控。传统的方式需要依靠现场实地抽检、监测,有着耗费人力物力比较大、收集到的信息量比较少、覆盖的种植区域比较小、最终数据汇总和处理比较困难、企业之间数据互通比较困难等缺点。   随着全球信息化和互联网技术的高速发展,互联网上出现了海量的数据信息。大量的非结构化的天气信息、温湿度信息、病虫害的预报、土壤情况等信息都可以直接从互联网上采集到,利用这些数据来进行分析和预测,就是大数据处理技术的应用。建立基于大数据的烟叶种植质量评估平台,可以避免传统监控方式的缺点,更快速、有效、准确的实现烟叶质量分析、预测、预警,从而为卷烟生产提供更好的保障和条件。   1 系统架构   1.1 大数据分析与云计算技术   大数据分析是从种类繁多的海量数据中,快速获得有价值信息的一种技术,它是商业智能的演进,正在改变世界的各个领域,从商业到医疗卫生、政府机构、农业和经济领域、人文以及社会的各个领域。大数据分析的特点在于能够利用全部数据,而不是仅仅依靠随机采样的一小部分样本数据[1-2],因为可以收集、存储和分析所有的相关数据信息,就不会受到样本集小、样本有偏差或者随机性不够所带来的分析误差的影响,从而可以获得更准确合理的分析结果。目前已经出现了很多利用大数据进行分析和预测的例子。例如,谷歌利用聚合搜索数据对流感进行跟踪,可达到接近实时的效率和非常高的准确度[3]。后面探讨如何利用从互联网采集到的各种非结构化信息,结合企业自有的烟叶检测、采购数据,分析和预测收获时烟叶质量的方法。   大数据分析通常基于云计算平台实现,因为实时的大型数据集的分析需要非常强有力而又弹性可扩展的计算能力,云计算平台正好适应了这种需求。云计算是一种成本低的分布式并行计算环境,可以适应规模不同的数据,开发方便,向用户屏蔽了底层的技术细节,节点加载、数据的划分和任务调度无需用户考虑。使用云计算可以在不增加现有设备的情况下大幅度提高数据处理的规模和效率,节点的扩充非常方便,系统可以自动处理失败的节点,容错性能比较好。   1.2 平台框架   设计并实现了一个统一的基于云计算的可以灵活扩展的大数据处理平台(BDAP,Big-Data Analysis Platform),能够实现数据采集、实时分析,批量处理和数据导出等功能。平台具有以下特性:   (1)可从不同的数据源(Web数据、结构化数据、数据库等等)以很高的吞吐能力把数据存储在基于Hadoop的大数据中心中;   (2)可对实时数据做流分析;   (3)支持工作流管理,工作流支持与标准的企业信息系统或者是Hadoop操作进行交互;   (4)支持高效率的数据导出,可以把数据导出到NoSQL数据库或者关系数据库;   (5)支持不同数据源数据的协同分析。   该平台框架如图1所示:   整个平台由数据层、大数据处理层、管理层三部分组成,平台由数据流驱动,数据层负责将各种数据来源以流的方式提供给中间的大数据处理层;大数据处理层是建立在云计算平台之上的,负责对数据层传入的数据流进行分析处理,处理之后的数据由管理层展现给终端用户。   在BDAP平台的基础上,结合烟叶种植质量评估的需求,设计了具体的实施方案和关键算法,形成了基于大数据的烟叶种植质量评估平台(BDAP-TQ,Big-Data Analysis Platform for Tobacco Quality),下面将介绍该平台的技术实现细节。   2 技术实现   2.1 数据层实现   数据层实现数据采集和清理的功能,采用web界面的调度平台,实时监控云平台上的爬虫运行状况。获取的数据分类存入Hadoop分布式文件系统(HDFS)中或者数据库中,可以采集到浏览器能浏览的结构化和非结构化的内容,支持各

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档