- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种有效的解图匹配问题的核方法研究2.doc
一种有效的解图匹配问题的核方法研究
摘要:随着计算机技术与网络技术的高速发展,大量的数据充斥着我们周围的世界。面对这些复杂的海量数据,如何才能准确无误地对它们进行辨别与分析,这对于人们来说是一个非常具有挑战性的问题。在计算机领域,图是一种非常灵活的数据结构,对图等含有结构化信息数据的进行学习,是模式识别和机器学习领域的一种重要问题。本文主要研究了通过核方法来解决这些识别问题,并且实例化了两种特殊的解决图匹配的核方法。在此基础上,分析了其解决这类问题的算法复杂度。实验结果表明,本文所提出的方法是一种解决图匹配的非常有效技术。
关键词:模式识别;图数据;图匹配;核方法
引言
模式识别伴随着计算机技术和网络技术的快速发展,在许多领域得到了成功应用如数据挖掘、文献分类、财政、多媒体数据库的组织和检索、生物(比如根据人的物理特征,如人脸、指纹等识别人)、医学(医学图像分析)。其中图的顶点表示对象的各个组成部分,图的边表示各组成部分之间的关系,以这样的表达方式图就可以很容易地捕捉到物体的关系与结构信息。因此,基于图的描述是一种非常有效的表达方式。而当前模式识别领域中大多数工具却不能直接以图为其处理对象,这严重影响了基于图方法的发展。研究复杂模式分析和分类方法是有必要而且有意义的。其中基于核方法的学习方法是一种比较新的学习方法,它是从统计学习理论中发展出来的,并且有效地克服了传统模式识别方法的局部极小化和不完全统计分析的缺点。
现实世界中的数据往往具有数据量多、高维、动态、不完全(缺值)、不确定(包含噪声)以及稀疏性等特性。对于从事模式识别、信号处理以及数据挖掘的研究者来说,核方法是一个强有力的分析工具。本文主要研究并实例化了一种核方法来模式识别中的图匹配问题,也就是通过在一个图中匹配另一个图中的某个相似的子结构来计算两个图的相似性的过程。
核方法
在近几年的机器学习和数据挖掘领域,经网络和决策树中典型的局部极小化问题和过拟合问题。因此,它可以看成是经典线性方法的扩展,也可以认为等效于使用非线性映射将样本变换到特征空间,随后在空间中实施线性特征抽取的方案。定义.1(图核)图G1和G2间的核函数K (G1, G2)称为图核。映射? 将原始空间中的图映射到高维甚至无穷维向量空间(特征空间)中去,使得
K (G1, G2) = ? (G1), ? (G2)
由于映射 ? 的选取,如 ?(G)的分量可以是两图中某一公共子路径的条数等,核k :G × G→R可以看成是两个图G1和G2间的相似性度量。核方法作为一种非线性方法可以解决这些问题。这使得原来用于向量表示的标准算法也适合图,它可以把统计模式识别和结构模式识别有机地结合起来。
一般常见的图核可分为三大类:基于路径的核方法如随机游走核、最短路径核;基于有限规模子图的核方法;基于树模式的核方法如树模式图核、快速子树核、Weisfeiler-Lehman图核等。本节深入研究快速子树核和Weisfeiler-Lehman图核其解决图匹配的算法复杂程度。
定义.1())’之间快速子树核
通过分析比较,两图之间的快速子树核的计算复杂度是,其中包括n2个节点对的比较和在范围之内,邻居节点的所有匹配次数。重复h次,其中h是一个多分类因子而不是指数。以k1为起是点,经过kh-1到kh递归地计算子树核。
定义3. 2(Weisfeiler-Lehman图核)’之间的WL图核定义为
其中Si(v)为节点v在第i次迭代中的多分类标签集,f是一个映射标签压缩函数,对于所有的,集合和集合是不相交的。S0(v)是在标签图v和非标签图中的初始标签并且。
实验论证
4.1数据准备
实验数据集主要包括MUTAG, NCI1,NCI109,ENZYMES,DD。其中MUTAG是一个根据是否对革兰氏阴性菌鼠伤寒沙门氏菌有突变作用的含有188个突变芳香和杂环硝基化合物。NCI1和NCI109分别代表两组平衡的化学混合物数据集,它们来自于非小细胞肺癌细胞和卵巢癌细胞系。ENZYMES 是一个具有三层结构的蛋白质数据集,它包含从酶蛋白质数据库中获取的600个蛋白质酶。这种情况下的主要任务是正确给每个蛋白质添加一个6层结构的类。DD是一个包含有1178个蛋白质结构的数据集。每一个蛋白质可以看作一个图,图中的节点表示氨基酸,两个节点之间的边小于埃则可以用一条边连接。所有节点在数据集中是被标记的,预测的任务则是区分蛋白质结构中的酶与非酶。
数据集中节点数、边数和度数的分布表4.1所示
Data set MUTAG NCI1 NCI109 ENZYMES DD Maxi node 28 111 111 126 5748 Average node 17.93 29.87 29.68 32.63 284.32 #labels 7 37 38 3
您可能关注的文档
- Ⅰ型胶原酶肝素诱导的大鼠脑出血模型研究.pdf
- Ⅱ型分泌系统与植物病原细菌致病性的关系.pdf
- Ⅱ类错牙合的临床特征及功能性矫治器治疗研究进展.pdf
- Ⅳ型胶原α链异常与Alport综合征及薄基膜肾病.pdf
- Ⅳ型胶原分子结构的研究与A1port综合征.pdf
- Ⅳ型胶原酶与肿瘤的侵袭和转移.doc
- Ⅳ期结直肠癌手术治疗及预后影响因素分析.pdf
- ⑦IIf棉则巷姘I芯秽,锈遂棉油脂粘结剂的研究与应用.pdf
- ⒈急性牙髓炎.doc
- 《2.2.1动物细胞培养和核移植技术》导学案.doc
- 2025年大庆萨尔图区东风街道社区卫生服务中心招聘7人笔试模拟试题及一套参考答案详解.docx
- 2025年大庆萨尔图区东风街道社区卫生服务中心招聘7人笔试模拟试题参考答案详解.docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题附答案详解(突破训练).docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题精编答案详解.docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题附答案详解(实用).docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题附答案详解.docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题有答案详解.docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题及答案详解(考点梳理).docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题附答案详解(典型题).docx
- 2025年大冶市医疗卫生单位公开招聘22名工作人员笔试备考试题及答案详解(精选题).docx
文档评论(0)