基于WekaApriori算法在原油产量预测中应用.docVIP

下载本文档

15
0
约3.84千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于WekaApriori算法在原油产量预测中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于WekaApriori算法在原油产量预测中应用

基于WekaApriori算法在原油产量预测中应用　　摘要：影响原油产量的因素是多方面的，这些因素和产量之间具有非线性关系，采用通常的数学方法很难对原油产量进行分析和预测。本文提出一种使用Apriori算法在Weka环境下进行原油预测的新方法。首先对某采油厂历年的月度生产相关数据使用K-Means算法进行数据预处理，得到事务数据集，再对其使用Weka平台下的Apriori算法进行关联分析，最后根据给定的最小支持度和最小置信度，筛选出与原油产量相关的强关联规则。使用这些强关联规则对采油厂未来几个月的原油产量进行预测，经过验证对比，该方法计算简单，运算效率高，预测结果准确。　　关键词：原油产量预测；Apriori 算法；K-Means算法；关联规则；Weka 　　中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）06-0260-02 　　1 概述　　准确地预测油气产量对于油气田开发生产十分重要。目前进行原油产量预测的方法有多种，其中最常用的有数值模拟法[1]、BP神经网络法[2]、灰色理论法[3]等。但是，数值模拟法和神经网络算法所需参数较多，计算过程复杂；灰色理论选取的相关信息不全，预测结果精度较差。而关联规则挖掘算法在处理非线性模式识别方面表现突出，在石油开发生产领域有着很好的应用前景。　　本文提出一种在Weka[5]环境下利用经典关联规则算法Apriori[6]算法来对原油产量进行预测的算法。Apriori算法使用一种被称为逐层搜索的迭代方法，根据给定的最小支持度，找出与原油产量相关的频繁项集，再根据最小置信度，得出与原油产量相关的强关联规则。运用这些强关联规则对原油产量进行预测，该方法计算方法简单，运算效率高。　　2 理论知识介绍　　2.1 Weka软件介绍　　Weka是怀卡托智能分析环境的英文字收缩写，是一种使用Java语言编写的数据挖掘机器学习软件。它包含一套完整的数据处理工具、学习算法和评价方法，拥有数据可视化的图形用户界面，业界内得到广泛赞誉。　　Weka系统包括回归、分类、聚类、关联规则以及属性选择等数据挖掘方法。输入数据可以有两种形式，第一种是读取ARFF格式文件；第二种是读取数据库。本文主要使用的Weka系统提供的Apriori算法在ARFF文件上进行数据挖掘。　　2.2 Apriori算法介绍　　Apriori[8]算法是由Rakesh Agrawal 和Rnamakrishnam Srikant提出的关联规则的原创性算法。它基于频繁项集的先验性质：任意频繁项集中的全部非空子集必也一定是频繁的。主要分为两个过程：生成频繁项集和产生强关联规则。　　（1）生成频繁项集：它需要经历两步：1）连接步：通过将频繁项集Lk-1 （k1）与自身连接产生候选k项集的集合，该候选集记为Ck。2）剪枝步：Ck是Lk的超集。逐个分析Ck中项根据是否满足最小支持度计数min_sup进行剪枝。剪枝后的得到的项集就是频繁项集。　　（2）生成关联规则：1）对于每个频繁项集Lk，生成Lk的所有非空子集； 2）对于Lk的每个非空子集s，如果[support_count（Lk）support_count（S）≥min_conf]，则输出规则[S?（LK-S）]，其中，min_conf是最小置信度阈值。　　由于关联规则由频繁项集产生，因此每个规则都自动地满足最小支持度。频繁项集和它们的支持度可以预先存放在散列表中，使得它们可以被快速的访问。　　3 Apriori算法预测原油产量的实例　　3.1 基本目的　　原油生产过程非常复杂，与原油生产相关的数据很多，可以利用这些相关数据来预测原油产量数据。应用关联规则分析某采油厂生产相关数据，主要指分析采油用电、注水用电、集输用电、注水量、原油产量等数据，可发现这些数据之间存在一些强关联规则，能为采油厂预测原油产量提供决策支持。比如强关联规则{采油用电（680.1万 kW h，692.2万kW h），注水量（36万[m3]，37.8万[m3]） }[?]原油产量（10.2万吨，10.4吨）}[support=15%，confidence=100%]，表明若该采油厂的采油用电量位于680.7万kW h和692.2万kW h之间，注水量位于36万[m3]和37.8万[m3]之间，则原油产量预测值在10.2万吨和10.4万吨之间。　　3.2 原始数据集的建立　　本文从某采油厂用电数据库和原油产量数据库中抽取了1990年1月至2013年12月共288条月度数据，包括采油用电量、集输用电量、注水用电量、注水量、原油产量5类数据，然后把这些数据在逻辑上实现整合，进行缺失数据填充和异常数据筛选