基于确定图频繁子图挖掘技术概述.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于确定图频繁子图挖掘技术概述 摘要:化学信息学、生物信息学、医学和社会科学等领域 的科学研究的迅速发展积累了大量的图数据,如何从复杂和 庞大的图数据中挖掘出有效信息成为数据挖掘领域的热点。 通过介绍现阶段图数据挖掘技术的进展,特别是确定图挖掘 技术中有代表性的频繁子图挖掘技术研究,讨论并预测了频 繁子图挖掘研究的发展趋势。 关键词:确定图;频繁子图挖掘;子图同构 中图分类号:TP311. 13文献标识码:A文章编号: 1007-9599 (2012) 17-0000-02 1引言 广泛应用于描述化学信息学、生物信息学、医学和社会 科学等领域的图数据挖掘技术是目前数据库研究领域的重 要研究方向。在生物技术领域,图数据挖掘技术可以帮助生 物学家减轻蛋白质结构匹配实验的代价;在小世界(社会) 网络分析中,对小部分节点的高度局部聚类的挖掘,有助于 理解如何能接触到其他人、设计网络,有利于信息或其他资 源的有效传输,从而不用太多的冗余连接使网络过载[1]。 在进行确定图数据挖掘技术的讨论之前,先给出确定图数据 的基本定义。确定图是一个五元组,=(,,,,)o 其中是图的顶点集合;是图边的集合;是图的顶点标 号集合;是图的边标号集合;是用来对顶点和边分配标 号的函数。本文将对国内外基于确定图的频繁子图挖掘技术 研究进行介绍和总结,并对未来的发展趋势和研究热点进行 展望。 2确定图的数据挖掘技术 一段时间以来,确定图的频繁子图挖掘问题得到了一定 的研究,确定图的频繁子图挖掘是指在确定图集合中挖掘出 公共子结构。常见的频繁子图挖掘算法可以分为4类:基于 模式增长的算法、基于的算法、基于模式规约的算法以及 基于最小描述长度的近似算法。 2. 1基于的频繁子结构挖掘算法 基于的频繁子结构挖掘算法,包括算法和算法等。 Akihiro Inokuchi Takashi Washio 和 Hiroshi Motoda 提 出的算法以递归统计的方法为基础,图的顶点相当于传统 频繁项集挖掘算法中的项集,通过每次增加一个图节点来实 现子结构规模的增大,该算法可以挖掘出所有频繁子图,对 集成的密集数据集具有良好性能。 Michihiro Kuramochi 和 George Karypis 提出的 算法 对 进行了改进,图的边相当于传统频繁项集挖掘算法中的 项集,也就是说,和传统频繁项集挖掘算法通过每次增加一 个单一项来增加频繁项集的大小一样,算法也是通过每次 增加一条边来增加频繁子图的大小。首先算法枚举所有的单 边图和双边图。然后,基于得到的单边图和双边图集合,开 始循环计算。在每个循环期间,算法首先产生比前一个频繁 子图多一条边的候选子图,接着计算这些候选子图的频繁 度,对支持度约束不满意的子图进行剪枝,并在计算候选子 图的支持度时采取了一定的优化措施,与相比,的执行效 率有一定提高。 2.2基于模式增长的频繁子结构挖掘算法 基于模式增长的频繁子结构挖掘算法包括 (Graph-Based Substruture Pattern ) 算 法、 (Fast 算法等,这些算法得Frequent Subgraph Mining) 算法、 到频繁子图的方法都是扩展频繁边的方式。图结构因为其本 身特性以及图的同构性问题,对图的频繁子图挖掘问题的难 点就在于怎样将无序的图结构转换成有序列表,因此Yan 算法等,这些算法得 Xifeng和Han Jiawei提出的算法首次将深度优先遍历算法 思想及最右路径扩展技术应用于频繁子图挖掘算法。算法 的思想是首先将确定图的边转换成DFS ( depth-f irst search)代码,用(,,,)这个五元组表示确定图的 边,和表示一条边的两个顶点,和表示顶点和顶点的 标签,表示连接和的边。因此,图中的边=(,,,,)、 边二(,,,,)。同时,定义当二,〈或者〈, =这两个条件任意满足一条时,就认为是的前驱边,或者 是的后继边,通过这种方式可以将无序的边集形成一个有 序的线性序列。然后计算图的最小DFS代码。该算法选择图 中任意一个顶点开始遍历,将起始顶点设置为树的根节点, 最后访问的顶点是最右顶点,知道建立一个完全的 depth-first search treeo Jun huan、Wei wang和Jan prins 一同提出的 算法在 一个代数图框架内采用垂直搜索方案来减少频繁子图挖掘 中出现的候选过多的问题。该算法用邻接矩阵表示图结构, 将矩阵的下三角元素(包括对角线元素)序列定位为矩阵代 码code (M),邻接矩阵的所有矩阵代码中的最大代码被定义 为标准邻接矩阵(CAM)与[2, 3]使用最小代码不同是的,使 用最大代码来表示矩阵的标准形式,然后将图的所有连通 子图的标准邻接矩阵按以下方式组织为CAM树:(1

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档