- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于简单Petri网和gSpan算法业务流程频繁结构挖掘
基于简单Petri网和gSpan算法业务流程频繁结构挖掘
[摘要]针对业务流程的结构特性,提出了将图结构数据挖掘算法应用于业务流程模型的思想,具体将gSpan算法应用于简单Petri网模型,提出简单Petri网有向图化和d-gSpan算法的可实践方法,实现了业务流程频繁子结构挖掘。论文最后以某列车入段检修业务流程进行实验。
[关键词]业务流程结构特性;图结构数据挖掘;频繁结构挖掘;简单Petri网;gSpan算法
doi:10.3969/j.issn.1673-0194.2013.02.036
[中图分类号]TP391[文献标识码]A[文章编号]1673-0194(2013)02-0076-05
1 引言
业务流程的结构化特征,描述了业务规则、文档、信息、资源和任务在业务流程的结构框架中传输、流动。[1]传统数据挖掘方法面向特定分析而专门建立的主题数据,不涉及业务流程的结构特性。近年兴起的“工作流挖掘”(WorkflowMining)也只是基于工作流日志挖掘工作流模型,而不考虑已有业务流程结构特性。[2]文献表明,至今鲜有针对业务流程结构化特性的数据挖掘研究。
为挖掘业务流程的结构化特性,需要引入针对结构数据的挖掘方法(结构数据挖掘算法)。由于业务流程的结构特性多被表示为具备特定性质的图结构模型,因此将图结构数据挖掘方法应用于业务流程结构模型是非常自然的思路。
近年来,图结构数据挖掘方面的研究有了突出成就,大量频繁子图模式挖掘算法涌现出来。如基于Apriori算法思想的AGM算法[3]和FSG算法[4]、基于FP-Growth算法思想的gSpan算法[5]、基于子图“交”和“扩展”两种操作的FFSM算法[6]等。
本文将gSpan(Graph-basedSubstructurePatternMining,基于图的子结构模式挖掘)算法应用于简单Petri网模型,从而实现业务流程的频繁结构挖掘,即从独立或多个相互关联的业务流程模型中挖掘得到频繁出现的子结构。
本研究工作的实践意义在于:在获得业务流程频繁结构后,决策者即可从模块划分、流程设计、资源分配、组织机构等多方面优化频繁子结构,从而把握庞大业务流程中的核心环节,以提高整体业务流程效率。
本研究的理论意义在于:业务流程频繁结构可以用来刻画业务流程的结构特性,依据结构特性区分不同的业务流程集合,是依据结构特性对业务流程进行分类和聚类的基础。
2 频繁子图模式挖掘算法——gSpan算法分析
设S为库所集,T为变迁集,F为有向弧,F是由一个库所和一个变迁组成有序偶集合。
三元组N=(S,T,F)称为一个简单Petri网,[7]当且仅当:①S∪T≠?准(网非空);②S∩T=?准(二元性);③F?哿(S×T)∪(T×S)(有向弧仅存在于S与T元素之间);④dom(F)∪cod(F)=S∪T(没有孤立元素)。
其中dom(F)是所有有向弧中起点的集合,cod(F)是所有有向弧中终点的集合,即,
dom(F)={x|?埚y∶(x,y)∈F}
cod(F)={y|?埚x∶(x,y)∈F}
库所、变迁和有向弧在图中分别用圆、矩形和箭头表示。
在使用简单Petri网表示业务流程时,库所表示业务案例所处的状态,变迁则表示对某案例所执行的操作,有向弧没有实际意义。
简单Petri网表达的业务规则,可以由顺序、并行、选择、循环4种基本结构组成(图1)。
频繁子图模式挖掘算法——gSpan算法[5-8]采用了FP-Growth算法思想,其基本步骤如下:
Step1:编码:利用编码标识图结构;
Step2:产生初始子图:计算所有边的支持度,得出所有频繁1边子图;
Step3:子图扩展:将频繁k边子图扩展得到k+1边候选子图;
Step4:剪枝:将非频繁和重复编码的k+1边候选子图删去。
算法形成一棵“边扩展频繁子图搜索树”,由此得到所有频繁子图(图2)。
2.1 图的编码
gSpan算法的研究对象是带标记的无向图,即无向图中顶点和边均带有标记,标记视为该顶点或边的属性。两个图只有结构和标记完全相同,方可视为相同或同构。
gSpan算法采用深度优先搜索的策略(DepthFirstSearch,DFS)为图编码。依据不同的搜索顺序,一个图可以建立多个DFS编码。为保证一个图只能表示为唯一编码,gSpan算法对边标志和顶点标志排序,并结合深度优先搜索顺序,建立DFS词典序(DFSLexicographicOrder)。依据DFS词典序对一个图的DFS编码排序,使用其中最小的DFS编码标示该图,称为最小DFS编码。
如果图G和图G’是相
您可能关注的文档
最近下载
- 人民版劳动教育四年级上册全册教学课件.ppt
- 三年级上册道德与法治课件-第一单-快乐学习-单元梳理-部编版(共28张PPT).pptx VIP
- 蛋白质工程蛋白质设计课件.ppt VIP
- Haier海尔洗衣机XQB100-M21JDB使用说明书手册参数图解图示pdf电子版下载.pdf VIP
- 提高住院患者大小便标本送检率PDCA.pptx VIP
- 2025年建设应急避难广场的可行性研究分析报告.docx
- 2025年扬中锂电铜箔项目可行性研究报告.docx
- 2025年中国注射用环磷腺苷项目创业计划书.docx
- 2025年可行性研究报告怎么写3.docx
- 2022年江苏省安全员C1证(机械安全员)考试题库大全(含答案).docx VIP
文档评论(0)