基于确定图频繁子图挖掘技术概述.docxVIP

下载本文档

0
0
约4.73千字
约 8页
2019-07-17 发布于广东
举报
版权申诉

基于确定图频繁子图挖掘技术概述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于确定图频繁子图挖掘技术概述摘要：化学信息学、生物信息学、医学和社会科学等领域的科学研究的迅速发展积累了大量的图数据，如何从复杂和庞大的图数据中挖掘出有效信息成为数据挖掘领域的热点。通过介绍现阶段图数据挖掘技术的进展，特别是确定图挖掘技术中有代表性的频繁子图挖掘技术研究，讨论并预测了频繁子图挖掘研究的发展趋势。关键词：确定图；频繁子图挖掘；子图同构中图分类号：TP311. 13文献标识码：A文章编号： 1007-9599 (2012) 17-0000-02 1引言广泛应用于描述化学信息学、生物信息学、医学和社会科学等领域的图数据挖掘技术是目前数据库研究领域的重要研究方向。在生物技术领域，图数据挖掘技术可以帮助生物学家减轻蛋白质结构匹配实验的代价；在小世界(社会) 网络分析中，对小部分节点的高度局部聚类的挖掘，有助于理解如何能接触到其他人、设计网络，有利于信息或其他资源的有效传输，从而不用太多的冗余连接使网络过载［1］。在进行确定图数据挖掘技术的讨论之前，先给出确定图数据的基本定义。确定图是一个五元组，=(,,,,)o 其中是图的顶点集合；是图边的集合；是图的顶点标号集合；是图的边标号集合；是用来对顶点和边分配标号的函数。本文将对国内外基于确定图的频繁子图挖掘技术研究进行介绍和总结，并对未来的发展趋势和研究热点进行展望。 2确定图的数据挖掘技术一段时间以来，确定图的频繁子图挖掘问题得到了一定的研究，确定图的频繁子图挖掘是指在确定图集合中挖掘出公共子结构。常见的频繁子图挖掘算法可以分为4类：基于模式增长的算法、基于的算法、基于模式规约的算法以及基于最小描述长度的近似算法。 2. 1基于的频繁子结构挖掘算法基于的频繁子结构挖掘算法，包括算法和算法等。 Akihiro Inokuchi Takashi Washio 和 Hiroshi Motoda 提出的算法以递归统计的方法为基础，图的顶点相当于传统频繁项集挖掘算法中的项集，通过每次增加一个图节点来实现子结构规模的增大，该算法可以挖掘出所有频繁子图，对集成的密集数据集具有良好性能。 Michihiro Kuramochi 和 George Karypis 提出的算法对进行了改进，图的边相当于传统频繁项集挖掘算法中的项集，也就是说，和传统频繁项集挖掘算法通过每次增加一个单一项来增加频繁项集的大小一样，算法也是通过每次增加一条边来增加频繁子图的大小。首先算法枚举所有的单边图和双边图。然后，基于得到的单边图和双边图集合，开始循环计算。在每个循环期间，算法首先产生比前一个频繁子图多一条边的候选子图，接着计算这些候选子图的频繁度，对支持度约束不满意的子图进行剪枝，并在计算候选子图的支持度时采取了一定的优化措施，与相比，的执行效率有一定提高。 2.2基于模式增长的频繁子结构挖掘算法基于模式增长的频繁子结构挖掘算法包括 (Graph-Based Substruture Pattern ) 算法、 (Fast 算法等，这些算法得Frequent Subgraph Mining) 算法、到频繁子图的方法都是扩展频繁边的方式。图结构因为其本身特性以及图的同构性问题，对图的频繁子图挖掘问题的难点就在于怎样将无序的图结构转换成有序列表，因此Yan 算法等，这些算法得 Xifeng和Han Jiawei提出的算法首次将深度优先遍历算法思想及最右路径扩展技术应用于频繁子图挖掘算法。算法的思想是首先将确定图的边转换成DFS ( depth-f irst search)代码，用(，，，)这个五元组表示确定图的边，和表示一条边的两个顶点，和表示顶点和顶点的标签，表示连接和的边。因此，图中的边=(,,,,)、边二(，，，，)。同时，定义当二，〈或者〈， =这两个条件任意满足一条时，就认为是的前驱边，或者是的后继边，通过这种方式可以将无序的边集形成一个有序的线性序列。然后计算图的最小DFS代码。该算法选择图中任意一个顶点开始遍历，将起始顶点设置为树的根节点，最后访问的顶点是最右顶点，知道建立一个完全的 depth-first search treeo Jun huan、Wei wang和Jan prins 一同提出的算法在一个代数图框架内采用垂直搜索方案来减少频繁子图挖掘中出现的候选过多的问题。该算法用邻接矩阵表示图结构, 将矩阵的下三角元素（包括对角线元素）序列定位为矩阵代码code （M）,邻接矩阵的所有矩阵代码中的最大代码被定义为标准邻接矩阵（CAM）与［2, 3］使用最小代码不同是的，使用最大代码来表示矩阵的标准形式，然后将图的所有连通子图的标准邻接矩阵按以下方式组织为CAM树：（1