- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
gspan:基于图的副结构模式挖掘--译文.doc
gSpan:基于图的副结构模式挖掘---译文
Xifeng Yan Jiawei HanDepartment of Computer ScienceUniversity of Illinois at Urbana-Champaignxyan, hanj @uiuc.edu
摘要
我们调查了数种在图数据库中基于频繁子图的模式挖掘的方法,最终提出了gSPAN算法(基于图的子结构模式挖掘)。这种算法可以在不产生候选集的条件下挖掘频繁子图。gSPAN能够在图数据库中建立一个新的字典排序并且为每一个图赋予一个最小DFS,码作为该图的规范标签。基于这种字典排序,gSPAN能够高效的以深度优先的原则挖掘频繁连接的子图。我们对gSPAN的表现研究表明这种算法能比其他算法有稳定的优秀的表现,甚至有时达到数量级的超越。
1,介绍
频繁子图的挖掘已经在很多科学和商业应用中成为了棘手的问题。有标图作为一种主要的数据结构类型,可以用来在很复杂的子结构模式中建立数据模型。给定一个图集D={G,G,...G},support(g) 表示在D中g为子图的次数。频繁子图挖掘的关键问题在于找到子图g,使得support(g)=minSup(最小支持度)。为了减小问题的复杂程度(同时考虑到在大多数情况下隐藏子图之间的连接属性),在这篇文章中我们只考虑频繁连接子图。
频繁子图挖掘的核心在于子图同构的测试。人们开发了许多知名的成对比较的子图同构测试方法。然而频繁子图挖掘的问题仍然没有找到高效的解决方法。在近期,Inokuchi发明了基于Apriori的AGM算法,用于发现所有的(有连接和无连接的)频繁子图。Kuramochi和Karypis用图的相邻描述和边界增长的策略进一步地发展了这种算法。他们给这种算法起名叫FSG,这种算法能够在一个化学成分数据集中以6.5%的最小支持度在十分钟内挖掘出所有的频繁子图。对于同样的数据集,我们的算法能够在10秒钟内完成同样的任务。
AGM和FSG都利用了Apriori的逐层扫描的特性。在频繁子图发觉的课题中,Apriori算法主要面临着一下两点挑战:1)候选集:要从一个规模为k的频繁子图中生成一个规模为k+1的候选集要比生成它的项集复杂得多。2)对于误报的剪枝:子图同构测试是一个非完全多项式问题,所以对于其误报的剪枝是很耗费的。
2,DFS字典序
这一部分介绍在gSPAN中所用到的几个技术,包括为每个图建立DFS码,在这些 DFS码中建立字典序,以及建立DFS树。
DFS下标:当用深度优先方式搜索一个图的时候,我们可以构造一颗DFS树。一个图可以有数个不同的DFS树。例如,图1(b)--(d)是图1(a)的同构。图1(b)--(d)中加粗的边界代表着图1(a)的三颗DFS树。对于顶点的深度优先遍历生成了一个线性的顺序。我们用下标根据他们遍历的时间来标记这种顺序。ij表示vi在vj之前被遍历。我们把v0叫做根节点,vn叫做最右顶点。v0到vn的直接路径叫做最右路径。在图1(b)--(d)中,生成了三种不同的下标。在图1(b)中最右路径是(v0,v1,v4),在图1(c)中最右路径是(v0,v4),在图1(d)中最右路径是(v0,v1,v2,v4)。我们把这种下表图G叫做Gt。
向前边界和向后边界:给定一个Gt,向前边界集合包括所有DFS树中的边界,而向后边界集合包括了所有不属于DFS树中的边界。为表达简便,设(i,j)是一个表示边界的有序组。当ij时,其为向前边界,否则为向后边界。我们根据以下规则构造一个线性顺序T:(假设e1=(i1,j1),e2=(i2,j2)),(i)如果i1=i2且j1j2,则e1 T e2;(ii)如果 i1j1切j1=i2,则e1 T e2;(iii)如果则e1 T e2且则e12T e3,则则e1 T e3。
定义1:(DFS码)给定一个图G的DFS树T,可以根据T构造一个边界序列ei,类似eiT ei+1,i=0.....|E|-1,ei被叫做一个DFS树,标记为(G,T)。
为简化,一个边界可以被记为一个五元组(i,j,li,lij,lj),其中li和lj分别是vi和vj的标签,lij是他们之间的边的标签。例如,在则图1(b)中的(0,1,X,a,Y)。表1列出了图1(b)(c)和(d)的DFS码。
定义2:(DFS字典序)令Z={code(G,T)|T 是G的DFS树|},Z是所有连接的有标图的DFS码集。假设标签集(L)中存在一个线性顺序(L),那么L和T的字典序组合在集合ET×L×L×L上也是一个线性顺序e。DFS字典序是一个定义如下的线性顺序:如果 a=code(Ga,Ta)=(a0,a1....,am)且b=code(Gb,Tb)=(b0,b1....,bn),a,b属于Z,那么当且
文档评论(0)