基于决策树的钻井过程故障诊断专家系统模型.docxVIP

  • 4
  • 0
  • 约3.73千字
  • 约 4页
  • 2023-12-02 发布于广东
  • 举报

基于决策树的钻井过程故障诊断专家系统模型.docx

基于决策树的钻井过程故障诊断专家系统模型 0 基于数据挖掘的决策研究 决策树算法是基于实例的归纳学习算法。提取重要的规则和计算量相对较小,能够显示出重要的决策属性和高分类精度,因此获得了广泛应用。 决策树是一种常用于预测模型的算法,它通过将大量数据有目的地分类,从中找到一些有价值的信息供决策者作出正确的决策。所以,研究决策树生成算法就显得尤为重要。而目前在钻井过程中,存在着大量复杂和不确定的影响因素,很难用精确建模的方式建立适用于实际钻井过程的数学模型,数据挖掘与人工智能理论的发展允许人们可以利用钻井系统实际输入输出数据和专家的丰富知识经验建立不严重依赖于钻井系统内在机理的模型。结合钻井过程状态,笔者在研究了决策树的算法后提出了将决策树应用于钻井工程设计和工艺软件中钻井过程故障诊断的解决方案,以实现故障诊断知识的自动获取与表示,提高故障诊断的效率。 1 id3算法描述 顾名思义,决策树的结构,就像是一棵树。它利用树的结构将数据记录进行分类,树的一个叶节点就代表某个条件下的一个记录集,根据记录字段的不同取值建立树的分支;在每个分支子集中重复建立下层节点和分支,便可生成一棵决策树。对生成的决策树进行修剪,很容易得到具有商业价值的信息,供决策者参考。如图1所示。 ID3是引用率较高的决策树算法之一,是Quinlan提出的一个著名决策树生成方法。要构造尽可能小的决策树,关键在于选择合适的产生分支的属性。而ID3算法的核心正是通过采用信息增益的方式来选择能够最好地将样本分类的属性。 设E=D1×D2×…×Dn是n维有穷向量空间,其中Dj是有穷离散符号集,E中的元素e=v1,v2,…,vn叫做例子,其中vj∈Dj,j=1,2,3,…,n。设s1,s2,…,sm是E的m个例子集。假设向量空间E中的这m个例子集的大小为Si,ID3基于下列2个假设: 1)在向量空间E上的一棵正确决策树对任意例子的分类概率同E中这m个例子的概率一致。 2)一棵决策树能对一个例子做出类别判断所需的熵为: Entropy(s1,s2,?,sm)=?∑i=1mpilog2(pi)Entropy(s1,s2,?,sm)=-∑i=1mpilog2(pi) 其中pi用si/s来估算。 如果以属性A作为决策树的根,A具有v个值,它将E分成v个子集{E1,E2,…,Ev},假设Ei中含有Si(i=1,2,…,m),那么子集Ei所需的期望信息是E(A)。 Entropy(A)=?∑j=1v(s1j+s2j+?+smj)/s*Entropy(A)=-∑j=1v(s1j+s2j+?+smj)/s* Entropy(s1j,s2j,…,smj) 因此,以属性A为根的信息增益是: Gain(A)=Entropy(A)(s1,s2,…,sn)-Entropy(A) ID3选择使Gain(A)最大的属性A*作为根节点,对A*的不用取值对应的E的v个子集Ei递归调用上述过程生成A*的子节点,从而生成一棵树。 2 基于决策树的挖掘故障诊断 2.1 钻井过程故障诊断模型 针对文中提出的决策树的基本思想及算法ID3,以钻井工程设计和工艺为原型,设计了基于决策树的钻井过程故障诊断模型。主要包括数据收集与预处理、告警数据库、知识库、决策树运行、训练样本库、推理机等模块。文中研究的重点在于决策树的建立这一模块。如图2中虚线所示。 2.2 钻井事故类型 在建立决策树之前,首先要考虑的关键因素是选取建树参数。那么现在的主要环节是分析钻井过程中的主要影响参数。 钻进过程中的系统状态类型众多,依据钻具是否仍然保持连接或活动状态,可以把钻井过程的复杂问题分为井下复杂情况与井下事故两种情形,文中以常见的井下事故为例进行研究。钻井过程的复杂情况及事故产生之前各种工艺参数可能产生缓增、缓降、急增、急降等变化,通过分析各种钻井事故中可能产生的参数变化趋势,总结出几种主要的钻井事故与钻井参数表,如表1。 表1说明钻井过程发生上述4种主要事故类型时钻压、泵压、泵流量、转速、钻速、扭矩参数是其主要特征参数。那么选取这6个主要特征参数进行分析建树,可以实现钻井专家对钻井过程的异常状态判断。 2.3 理论模型及算法 为了验证构造决策树方法在系统知识获取上的有效性,以钻进过程中的常见事故卡钻、烧钻、埋钻和断钻为例进行研究。按上述分析,钻井过程的事故诊断可以选择钻压、泵压、泵量、转速、钻速、扭矩作为决策树的输人参数。那么将这6种属性组成故障识别参数集A{A1,A2,A3,A4,A5,A6},其中A1代表钻压;A2代表泵压;A3代表泵量;A4代表转速;A5代表钻速;A6代表扭矩,共30个样本实例来建立故障决策树。选取的值均是反映该参数对应的曲线走向,图中显示为参数名,选取的样本值如图3所示。 图3 训练样本集与期望值 最终需要分类的属性

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档