CN115455382B 一种二进制函数代码的语义比对方法及装置 (武汉大学).docxVIP

CN115455382B 一种二进制函数代码的语义比对方法及装置 (武汉大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115455382B(45)授权公告日2025.07.11

(21)申请号202210960065.5

(22)申请日2022.08.11

(65)同一申请的已公布的文献号申请公布号CN115455382A

(43)申请公布日2022.12.09

(73)专利权人武汉大学

地址430072湖北省武汉市武昌区珞珈山

街道八一路299号

(72)发明人王丽娜高昊张桐陈崧强余荣威邓颖川

(74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙)42222

专利代理师罗飞

(51)Int.CI.

GO6F21/16(2013.01)

GO6F40/194(2020.01)

GO6F40/30(2020.01)

(56)对比文件

CN112596736A,2021.04.02CN112308210A,2021.02.02

审查员汪见晗

权利要求书2页说明书7页附图1页

(54)发明名称

一种二进制函数代码的语义比对方法及装置

(57)摘要

CN115455382B本发明公开了一种二进制函数代码的语义比对方法及装置,其中的方法首先对二进制文件中的二进制函数代码进行反汇编,并用二进制控制流程图进行表示,构建了二进制函数代码语义比对模型FUSION,通过该模型的语义感知模块可以同时学习语句的语义信息,结构感知模块可以学习二进制控制流图的结构和节点的执行顺序信息,从而更好表征二进制代码各类特征,通过语义对比模块得到二进制函数的相似度,从而可以提高二进制函数比对的准确性。并且,该方法具有较好的时间和空间复杂度,能够满足在海量代码库中进行二进制代码文件快速溯源分析的

CN115455382B

CN115455382B权利要求书1/2页

2

1.一种二进制函数代码的语义比对方法,其特征在于,包括:

获取包含二进制函数代码的二进制文件;

将二进制文件中的二进制函数代码进行反汇编,得到反汇编代码,采用二进制控制流程图对反汇编代码进行表示,并提取二进制控制流程图中的数据流关系,其中,二进制控制流程图的节点表示反汇编代码中的基本块,边表示基本块之间的调用指令,基本块包括二进制函数代码段;

构建二进制函数代码语义比对模型,模型包括语义感知模块、结构感知模块以及相似度计算模块,其中,语义感知模块用于采用BERT模型根据输入的指令生成指令嵌入,结构感知模块以采用有向图神经网络基于基本块的指令嵌入得到整个二进制函数的全局嵌入,相似度计算模块采用全连接计算不同二进制函数的全局嵌入之间的相似度,其中,语义感知模块基于多层次的双向Transformer编码器实现,二进制代码段中的调用指令通过串联的方式输入语义感知模块,在指令嵌入的基础上加上位置嵌入和分段嵌入,并使用位置嵌入和分段嵌入的混合矢量作为双向Transformer编码器的输入,然后使用倒数第二层的隐藏状态的平均池化得到调用指令的高维向量表征,即指令的嵌入;其中,位置嵌入代表输入指令序列中的不同位置,分段嵌入用以区分不同的指令;

利用构建的二进制函数代码语义比对模型对二进制函数代码进行语义比对。

2.如权利要求1所述的二进制函数代码的语义比对方法,其特征在于,所述方法还包括对二进制控制流程图中的调用指令进行规范化处理,具体包括:

对于每一个二进制控制流程图进行调用指令的提取,并保留调用指令相对于函数起始地址的偏移量。

3.如权利要求1所述的二进制函数代码的语义比对方法,其特征在于,所述方法还包括对二进制控制流程图中基本块中的操作数与操作数分离进行标记,并对每个操作数进行规范化处理。

4.如权利要求1所述的二进制函数代码的语义比对方法,其特征在于,结构感知模块利用有向图神经网络GraphSAGE网络捕捉二进制控制流程图的结构、顺序以及节点信息,并为每一个二进制控制流程图生成一个全局嵌入,一个二进制流程图对应一个二进制函数。

5.如权利要求4所述的二进制函数代码的语义比对方法,其特征在于,GraphSAGE网络的计算公式为:

h=o(W.·[ht-1|Ih。])

h代表节点v在第t轮节点更新时的高维向量表征,h声为v节点的邻居节点的高纬维向量表征,Nv表示与节点v相邻的节点集合,σ表示GraphSAGE中的聚合函数,Wt表示第t轮可学习的权重,Ⅱ表示连接

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档