- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最大频繁子图挖掘算法DMFS
最大频繁子图挖掘算法DMFS [摘 要]最大频繁子图挖掘得到的结果数量少而且不会丢失信息,有益于对结果的理解和应用。为了避免挖掘所有频繁子图,降低挖掘难度,本文应用决策树挖掘最大频繁子图。挖掘过程中,首先构造决策树,然后对决策树进行剪枝得到最大频繁子图,最后通过实验验证算法的可行性以及正确性
[关键词]数据;挖掘;最大频繁子图;决策树;子图同构
doi:10.3969/j.issn.1673 - 0194.2017.04.099
[中图分类号]TP301.6 [文献标识码]A [文章编号]1673-0194(2017)04-0-02
基于图的数据挖掘提出时间不长,但图论作为数学的研究领域已经有了很长的历史,所以频繁子图挖掘得以很好地发展。但是频繁子图挖掘得到的结果数量巨大,影响着对结果的理解、应用以及分析工作。最大频繁子图包含了所有频繁子图,挖掘最大频繁子图可以保证信息的完整性,而且挖掘最大频繁子图可以得到少量结果从而节省了空间,简化了分析工作。基于此,可以将频繁子图挖掘转换为最大频繁子图挖掘。MARGIN算法和SPIN算法是经典的最大频繁子图挖掘算法,它们必须挖掘出所有的频繁子图,然后再挖掘最大频繁子图。虽然最大频繁子图挖掘得到的结果少了,但挖掘过程很复杂,难度很高
针对最大频繁子图挖掘算法中存在的问题,本文提出新的最大频繁子图挖掘算法DMFS(Decision tree to Mining Maximal Frequent Subgraph)。DMFS算法利用决策树来挖掘最大频繁子图,首先构造决策树,其次对决策树进行剪枝(剪掉决策树中不频繁的节点),最后通过剪枝后的决策树来得到最大频繁子图集合
1 图挖掘相关概念
(1)标记图用五元组G=(V,E,ΣV,ΣE,L)表示标记图,V是结点集,E是边集,ΣV,ΣE分别为结点标记和边标记的集合,L为V→ΣV,E→ΣE的映射
(2)子图给定图G1=(V1,E1,ΣV1,ΣE1,L1)和G2=(V2,E2,ΣV2,ΣE2,L2),
G1为G2的子图当且仅当:
V1V2,E1E2
?u∈V1,L1(u)=L2(u)
?(u,v)∈E1,L1(u,v)=L2(u,v)
(3)同构如果图G1=(V1,E1,ΣV1,ΣE1,L1)同??于图G2=(V2,E2,ΣV2,
ΣE2,L2)当且仅当存在映射f:
?u∈V1,L1(u)=L2(f(u))
?u,v∈V1,(u,v)∈E1则(f(u))∈E2
?(u,v)∈E1则L1(u,v)=L2(f(u),f(v))
(4)子图同构若图G1子图同构于图G2,当且仅当在图G2中存在子图G2’,使G2’同构于图G1
(5)支持度给定一个大小为n的图数据库D={G1,G2,…,Gn}
设
则g在图数据库D中的支持度sup(g,D)=?(g,D)/n
(6)频繁子图给定最小支持度minsup,如果图g的支持度sup(g,D)≥minsup则称图g为频繁子图。如果频繁子图g的任意超图均不频繁,则图g为最大频繁子图
2 决策树
决策树是基于机器学习的数据挖掘技术,它形式简单,分类速度快,无需先验知识,而且由决策树表达的规则直观清晰。应用决策树计算支持度的想法来源于FSM算法,FSM算法存在不能正确计算出支持度的问题,本文通过改进决策树解决这个问题,具体改进如下
①DMFS算法在构造决策树时不是采取每次增加一个顶点的方式,而是每次增加一条边。②FSM算法中将某节点的支持度计为其孩子节点的支持度的总和,忽略了决策树中会有很多重复的leaf node,所以必须改变支持度的计算方法。③结合经典MARGIN算法的剪枝策略,通过对决策树进行剪枝得到最大频繁子图
2.1 构造决策树方法
(1)为了正确且简单地计算子图的支持度,对图集中的两个图进行编号
(2)在构造决策树之前,首先找到图集中所有不同的结点标记,然后计算结点支持度生成两个集合,分别为频繁结点集和非频繁结点集,如果某结点标记的支持度为100%,则仅将该结点标记添加到决策树中第二层,将其作为根节点的孩子节点
(3)从编号为1的图以每次添加一条边的方式构造图集的决策树
2.2 构造决策树实例
假设图集中含有两个图,minsup=100%,为图集构造决策树如下。①将图进行编号为G1、G2。②A、B、C均为频繁的结点标记,结点标记A的支持度为100%,将A添加到决策树的第二层,将其作为根节点的孩子节点。③现在从图G1的结点A开始构造它的决策树,与A关联的边有两条分别为(A,1,B)(A,2,C),将表示这两条边的节点添加在决策书的第三层,作为A的孩子节点。与(
您可能关注的文档
最近下载
- 土地复垦可行性分析zhouqi.docx VIP
- 国开2021《Web开发基础》形考任务1-5题目汇总.doc VIP
- 四、 中国近代化的探索 教学设计 2023~2024学年统编版八年级历史上册.docx
- 2021需氧菌性阴道炎诊治专家共识.pptx VIP
- 小红书2025好势发生营销IP新版图通案.pdf
- 传统村落保护与发展规划.ppt VIP
- 国开2021《Web开发基础》形考任务1-5题目汇总.docx VIP
- 2023人教版(PEP)小学英语(三、四、五、六年级)词汇及常用表达法(课本同步).pdf VIP
- 日立电梯HGE乘客电梯调试指导手册.pdf
- 风电场运维安全管理.pptx VIP
文档评论(0)