- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
几种图匹配核方法研究
几种图匹配核方法研究 摘要:数据挖掘算法现面临挑战,这个挑战就是要处理日益增长的复杂对象。对于图数据,随机游走核是有力的容错图匹配方法。由于随机游走核的局部定义,它的适用性取决于潜在图表示的特性。另外通过定义图实例的核函数,数据挖掘算法的整个工具变得可用。迄今为止,已经提出了基于图的游走、子树和循环的图核。一般问题在于,这些核要么运算量大要么受限于他们的表达性。我们试着通过定义基于路径有表达性的图核克服这个问题。由于计算图的所有路径和最长路径是NP-难,我们建议基于最短路径图核。这些核在多项式时间内就可以计算,保持表现力并且仍然是正定的。 关键词:NP-难;图核;核方法;随机游走核;最短路径核;正定 中图分类号:TP391.4 文献标识码:A 文章编号:1009-3044(2013)07-1622-04 1 概述 核方法是统计学习理论[18]的流行方法,它在数据挖掘上有多种应用。核可以完成比如分类这样的任务,这些任务以非线性假设和很种不同数据类型的支撑向量机、回归[5]、聚类[1]和主成分分析[19]来完成。 核方法的早期研究几乎都只处理基于向量描述的输入数据。Haussler[10]第一个定义了在结构对象上用原则性方法设计核,也就是所谓的R-卷积核。卷积核的基本想法是定义复合对象子结构正定核并使用在卷积下正定函数是关闭的属性来组合这些核,成为一个复合对象自身的核函数。因此,卷积核推断出复杂对象相似性来源于他们部件的相似性。将一个串拆分成两个子串,例如,可以认为是一个串的分解。对于串匹配,很多核函数提出来,大部分核函数属于卷积核类。基本理念是将串映射到用串索引坐标的特征空间。 近年来,结构对象、图[14]中节点和图的核都已经定义了,结构对象比如字符串、树、传感器、动力系统。一般说来,图核是基于经由核的图子结构的比较。为了这个目的已经考虑游走[13]、子树[17]和循环模式[11]。然而,这些子结构的核要么运算量大,有时甚至是NP-难,要么局限于它们的表现力。 现存核方法的不足是因为图核设计时的竞争需求:第一,核应该是图相似性的优良准则;第二,它的运算应可能在多项式时间内;第三,核必须是正定的;第四,理想情况下它不仅仅只对图的一小部分子集适用,对所有图都应适用。现存图核对这四个目的至少有一个达不到。这篇文章我们介绍了一类图核,它是基于图最短路径来评价相似性,它在多项式时间内也可以计算出,是正定的并且适用于广泛的图。 2 现有图核 在我们回顾现存图核之前,为了方便论证,我们先规定图论中的基本定义。 2.1 初级图论 图[G]由节点(或定点)集[V]和边[E]组成。在本文中,[n]表示图的节点数,[m]表示图的边数。 属性图是节点和/或边带有标签的图;标签指的是属性。在例子中,属性由形如(属性-名称,值)的对构成。[G]的邻接矩阵[A]定义如下: 这里[vi]和[vj]是[G]的节点。图上长度为[k-1]的步子[w]是节点[v1,v2,...,vk]的一个序列,[vi-1,vi∈E ],[ 1 任何解决所有最短路径对问题的算法可以用来确定[S]中所有最短距离的边标签。我们建议用弗洛伊德的算法。这个算法运行时间为[On3],它也适用于有负边权值的图,但是多数不包含负的权值环。此外,执行起来也很简单。下面将提到经弗洛伊德算法将图[I]转换到[S]的过程,称为弗洛伊德转换。 3.2 最短路径核 继我们输入图的弗洛伊德转换,我们现在可以定义一个最短路径核。 定义1(最短路径图核)[G1]和[G2]是两个图,经弗洛伊德转换为[S1]和[S1]。接着定义最短路径图核[S1=V1,E1]和[S2=V2,E2]为 下面我们证明最短路径核的有效性。 引理1最短路径图核是正定的。 弗洛伊德-沃尔什(n节点的图G和邻接矩阵A) 证明:最短路径核是运行在弗洛伊德转换图的简单游走核, 弗洛伊德转换图只考虑了长度为1的游走。首先,我们选择一个节点的正定核和边的正定核。接着我们定义长度为1的游走对[k1walk],顺着游走碰到的节点和边的核结果。作为一个节点和边核的张量结果,[k1walk]是正定的。接着我们0-扩展[k1walk]到游走的整个节点对,将长度[≠]1的所有游走核值设为0。这个0-扩展维持正定性。最短路径核的正定性直接就像卷积核[10]一样,从它的定义证明正定的。 运行时间复杂度 最短路径核避免了动摇,但是如何与已知的随机游走核(测量部分相似性)进行运行时间复杂度的比较仍旧是个有趣的问题。 不失其广义,我们假设要处理两个各有[n]个节点和[m]条边的图。为了计算游走核,我们首先要确定直积图,直积图的节点数明显上限到[n2]。我们接着要转化这个直积图的
原创力文档


文档评论(0)