- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
 - 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
 - 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
 - 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
 - 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
 - 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
 - 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
 
                        查看更多
                        
                    
                基于WekaApriori算法在原油产量预测中应用
                    基于WekaApriori算法在原油产量预测中应用
    摘要:影响原油产量的因素是多方面的,这些因素和产量之间具有非线性关系,采用通常的数学方法很难对原油产量进行分析和预测。本文提出一种使用Apriori算法在Weka环境下进行原油预测的新方法。首先对某采油厂历年的月度生产相关数据使用K-Means算法进行数据预处理,得到事务数据集,再对其使用Weka平台下的Apriori算法进行关联分析,最后根据给定的最小支持度和最小置信度,筛选出与原油产量相关的强关联规则。使用这些强关联规则对采油厂未来几个月的原油产量进行预测,经过验证对比,该方法计算简单,运算效率高,预测结果准确。 
  关键词:原油产量预测;Apriori 算法;K-Means算法;关联规则;Weka 
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)06-0260-02 
  1 概述 
  准确地预测油气产量对于油气田开发生产十分重要。目前进行原油产量预测的方法有多种,其中最常用的有数值模拟法[1]、BP神经网络法[2]、灰色理论法[3]等。但是,数值模拟法和神经网络算法所需参数较多,计算过程复杂;灰色理论选取的相关信息不全,预测结果精度较差。而关联规则挖掘算法在处理非线性模式识别方面表现突出,在石油开发生产领域有着很好的应用前景。 
  本文提出一种在Weka[5]环境下利用经典关联规则算法Apriori[6]算法来对原油产量进行预测的算法。Apriori算法使用一种被称为逐层搜索的迭代方法,根据给定的最小支持度,找出与原油产量相关的频繁项集,再根据最小置信度,得出与原油产量相关的强关联规则。运用这些强关联规则对原油产量进行预测,该方法计算方法简单,运算效率高。 
  2 理论知识介绍 
  2.1 Weka软件介绍 
  Weka是怀卡托智能分析环境的英文字收缩写,是一种使用Java语言编写的数据挖掘机器学习软件。它包含一套完整的数据处理工具、学习算法和评价方法,拥有数据可视化的图形用户界面,业界内得到广泛赞誉。 
  Weka系统包括回归、分类、聚类、关联规则以及属性选择等数据挖掘方法。输入数据可以有两种形式,第一种是读取ARFF格式文件;第二种是读取数据库。本文主要使用的Weka系统提供的Apriori算法在ARFF文件上进行数据挖掘。 
  2.2 Apriori算法介绍 
  Apriori[8]算法是由Rakesh Agrawal 和Rnamakrishnam Srikant提出的关联规则的原创性算法。它基于频繁项集的先验性质:任意频繁项集中的全部非空子集必也一定是频繁的。主要分为两个过程:生成频繁项集和产生强关联规则。 
  (1) 生成频繁项集:它需要经历两步:1) 连接步:通过将频繁项集Lk-1 (k1) 与自身连接产生候选k项集的集合,该候选集记为Ck。2) 剪枝步:Ck是Lk的超集。逐个分析Ck中项根据是否满足最小支持度计数min_sup进行剪枝。剪枝后的得到的项集就是频繁项集。 
  (2) 生成关联规则:1) 对于每个频繁项集Lk,生成Lk的所有非空子集; 2) 对于Lk的每个非空子集s,如果[support_count(Lk)support_count(S)≥min_conf], 则输出规则[S?(LK-S)],其中,min_conf是最小置信度阈值。 
  由于关联规则由频繁项集产生,因此每个规则都自动地满足最小支持度。频繁项集和它们的支持度可以预先存放在散列表中,使得它们可以被快速的访问。 
  3 Apriori算法预测原油产量的实例 
  3.1 基本目的 
  原油生产过程非常复杂,与原油生产相关的数据很多,可以利用这些相关数据来预测原油产量数据。应用关联规则分析某采油厂生产相关数据,主要指分析采油用电、注水用电、集输用电、注水量、原油产量等数据,可发现这些数据之间存在一些强关联规则,能为采油厂预测原油产量提供决策支持。比如强关联规则{采油用电 (680.1万 kW h,692.2万kW h) ,注水量 (36万[m3],37.8万[m3]) }[?]原油产量(10.2万吨,10.4吨)}[support=15%,confidence=100%],表明若该采油厂的采油用电量位于680.7万kW h和692.2万kW h之间,注水量位于36万[m3]和37.8万[m3]之间,则原油产量预测值在10.2万吨和10.4万吨之间。 
  3.2 原始数据集的建立 
  本文从某采油厂用电数据库和原油产量数据库中抽取了1990年1月至2013年12月共288条月度数据,包括采油用电量、集输用电量、注水用电量、注水量、原油产量5类数据,然后把这些数据在逻辑上实现整合,进行缺失数据填充和异常数据筛选
                
原创力文档
                        

文档评论(0)