基于简单Petri网和gSpan算法业务流程频繁结构挖掘.docVIP

下载本文档

9
0
约6.67千字
约 15页
2018-06-16 发布于福建
举报
版权申诉

基于简单Petri网和gSpan算法业务流程频繁结构挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于简单Petri网和gSpan算法业务流程频繁结构挖掘

基于简单Petri网和gSpan算法业务流程频繁结构挖掘　　［摘要］针对业务流程的结构特性，提出了将图结构数据挖掘算法应用于业务流程模型的思想，具体将gSpan算法应用于简单Petri网模型，提出简单Petri网有向图化和d-gSpan算法的可实践方法，实现了业务流程频繁子结构挖掘。论文最后以某列车入段检修业务流程进行实验。　　［关键词］业务流程结构特性；图结构数据挖掘；频繁结构挖掘；简单Petri网；gSpan算法　　doi：10.3969/j.issn.1673-0194.2013.02.036 　　［中图分类号］TP391［文献标识码］A［文章编号］1673-0194（2013）02-0076-05 　　１　引言　　业务流程的结构化特征，描述了业务规则、文档、信息、资源和任务在业务流程的结构框架中传输、流动。［１］传统数据挖掘方法面向特定分析而专门建立的主题数据，不涉及业务流程的结构特性。近年兴起的“工作流挖掘”（ＷｏｒｋｆｌｏｗＭｉｎｉｎｇ）也只是基于工作流日志挖掘工作流模型，而不考虑已有业务流程结构特性。［２］文献表明，至今鲜有针对业务流程结构化特性的数据挖掘研究。　　为挖掘业务流程的结构化特性，需要引入针对结构数据的挖掘方法（结构数据挖掘算法）。由于业务流程的结构特性多被表示为具备特定性质的图结构模型，因此将图结构数据挖掘方法应用于业务流程结构模型是非常自然的思路。　　近年来，图结构数据挖掘方面的研究有了突出成就，大量频繁子图模式挖掘算法涌现出来。如基于Ａｐｒｉｏｒｉ算法思想的ＡＧＭ算法［３］和ＦＳＧ算法［４］、基于ＦＰ－Ｇｒｏｗｔｈ算法思想的ｇＳｐａｎ算法［５］、基于子图“交”和“扩展”两种操作的ＦＦＳＭ算法［６］等。　　本文将ｇＳｐａｎ（Ｇｒａｐｈ－ｂａｓｅｄＳｕｂｓｔｒｕｃｔｕｒｅＰａｔｔｅｒｎＭｉｎｉｎｇ，基于图的子结构模式挖掘）算法应用于简单Ｐｅｔｒｉ网模型，从而实现业务流程的频繁结构挖掘，即从独立或多个相互关联的业务流程模型中挖掘得到频繁出现的子结构。　　本研究工作的实践意义在于：在获得业务流程频繁结构后，决策者即可从模块划分、流程设计、资源分配、组织机构等多方面优化频繁子结构，从而把握庞大业务流程中的核心环节，以提高整体业务流程效率。　　本研究的理论意义在于：业务流程频繁结构可以用来刻画业务流程的结构特性，依据结构特性区分不同的业务流程集合，是依据结构特性对业务流程进行分类和聚类的基础。　　２　频繁子图模式挖掘算法——ｇＳｐａｎ算法分析　　设Ｓ为库所集，Ｔ为变迁集，Ｆ为有向弧，Ｆ是由一个库所和一个变迁组成有序偶集合。　　三元组Ｎ＝（Ｓ，Ｔ，Ｆ）称为一个简单Ｐｅｔｒｉ网，［７］当且仅当：①Ｓ∪Ｔ≠？准（网非空）；②Ｓ∩Ｔ＝？准（二元性）；③Ｆ？哿（Ｓ×Ｔ）∪（Ｔ×Ｓ）（有向弧仅存在于Ｓ与Ｔ元素之间）；④ｄｏｍ（Ｆ）∪ｃｏｄ（Ｆ）＝Ｓ∪Ｔ（没有孤立元素）。　　其中ｄｏｍ（Ｆ）是所有有向弧中起点的集合，ｃｏｄ（Ｆ）是所有有向弧中终点的集合，即，　　ｄｏｍ（Ｆ）＝｛ｘ｜？埚ｙ∶（ｘ，ｙ）∈Ｆ｝　　ｃｏｄ（Ｆ）＝｛ｙ｜？埚ｘ∶（ｘ，ｙ）∈Ｆ｝　　库所、变迁和有向弧在图中分别用圆、矩形和箭头表示。　　在使用简单Ｐｅｔｒｉ网表示业务流程时，库所表示业务案例所处的状态，变迁则表示对某案例所执行的操作，有向弧没有实际意义。　　简单Ｐｅｔｒｉ网表达的业务规则，可以由顺序、并行、选择、循环4种基本结构组成（图１）。　　频繁子图模式挖掘算法——ｇＳｐａｎ算法［５-８］采用了ＦＰ－Ｇｒｏｗｔｈ算法思想，其基本步骤如下：　　Ｓｔｅｐ１：编码：利用编码标识图结构；　　Ｓｔｅｐ２：产生初始子图：计算所有边的支持度，得出所有频繁１边子图；　　Ｓｔｅｐ３：子图扩展：将频繁ｋ边子图扩展得到ｋ＋１边候选子图；　　Ｓｔｅｐ４：剪枝：将非频繁和重复编码的ｋ＋１边候选子图删去。　　算法形成一棵“边扩展频繁子图搜索树”，由此得到所有频繁子图（图２）。　　２．１　图的编码　　ｇＳｐａｎ算法的研究对象是带标记的无向图，即无向图中顶点和边均带有标记，标记视为该顶点或边的属性。两个图只有结构和标记完全相同，方可视为相同或同构。　　ｇＳｐａｎ算法采用深度优先搜索的策略（ＤｅｐｔｈＦｉｒｓｔＳｅａｒｃｈ，ＤＦＳ）为图编码。依据不同的搜索顺序，一个图可以建立多个ＤＦＳ编码。为保证一个图只能表示为唯一编码，ｇＳｐａｎ算法对边标志和顶点标志排序，并结合深度优先搜索顺序，建立ＤＦＳ词典序（ＤＦＳＬｅｘｉｃｏｇｒａｐｈｉｃＯｒｄｅｒ）。依据ＤＦＳ词典序对一个图的ＤＦＳ编码排序，使用其中最小的ＤＦＳ编码标示该图，称为最小ＤＦＳ编码。　　如果图Ｇ和图Ｇ’是相