CN116450844B 面向非结构化数据的威胁情报实体关系抽取方法 (江苏大学).docxVIP

  • 0
  • 0
  • 约1.85万字
  • 约 32页
  • 2026-01-20 发布于重庆
  • 举报

CN116450844B 面向非结构化数据的威胁情报实体关系抽取方法 (江苏大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116450844B(45)授权公告日2025.07.11

(21)申请号202310323400.5

(22)申请日2023.03.29

(65)同一申请的已公布的文献号申请公布号CN116450844A

(43)申请公布日2023.07.18

(73)专利权人江苏大学

地址212013江苏省镇江市京口区学府路

301号

(72)发明人袁陈翔朱小龙

(74)专利代理机构南京智造力知识产权代理有限公司32382

专利代理师汪芬

(51)Int.CI.

GO6F16/36(2019.01)

GO6F40/295(2020.01)

GO6N3/0455(2023.01)

GO6N3/0442(2023.01)

GO6N3/047(2023.01)

GO6N3/048(2023.01)

GO6N3/082(2023.01)

GO6F16/353(2025.01)

GO6N5/022(2023.01)

(56)对比文件

袁陈翔.面向非结构化数据的威胁情报知识图谱构建方法研究与应用.中国优秀硕士论文全文数据库.2024,(第5期),全文.

审查员王垚

权利要求书3页说明书9页附图6页

(54)发明名称

面向非结构化数据的威胁情报实体关系抽取方法

(57)摘要

CN116450844B本发明涉及威胁情报命名实体识别领域,具体涉及一种面向非结构化数据的威胁情报实体关系抽取方法,基于数据增强和BERT的威胁情报命名实体识别方法和融合多元实体信息的威胁情报实体关系抽取方法来对非结构化文本中的网络威胁情报实体关系进行准确抽取。本发明通过增加漏洞、域名、IP的实体数量,增加攻击组织和恶意软件实体的样本多样性,寻找包含待增强类型实体的句子作为模板句子,将知识库中同类型实体填入模板句子生成新的包含特定类型实体的句子,将新生成的句子加入训练集以实现数据增强从而提升语义准确性。本发明将实体语义信息和实体边界信息进行融合,将实体类型信息添加到

CN116450844B

数据集预处理

数据集预处理

威胁情报本体构建

BERT+BiLSTM+CRF威胁情报实体抽取

威胁情报关系抽取

威胁情报知识图谱构建

模板句子构建

CN116450844B权利要求书1/3页

2

1.一种面向非结构化数据的威胁情报实体关系抽取方法,其特征在于,包括以下三个部分:

1)威胁情报实体抽取,包括如下步骤:

S1:基于STIX威胁情报标准定义威胁实体类型和威胁情报实体间关系;

S2:构建NER原始标注数据集、威胁情报领域词汇知识库;

S3:在原始标注数据集中寻找包含待增强类型实体的句子作为模板句子,将威胁情报领域词汇知识库中的同类型实体填入模板句子生成新的包含特定类型实体的句子,将新生成的句子加入NER原始标注数据集中;

S4:填充模板句子:将模板句子转化为BIO标注模式,并将标注结果与威胁情报领域词汇知识库作为输入,经由模板句子填充算法生成并输出模板填充后的句子,输出的句子构成增强数据集;

所述步骤S4的模板句子填充算法具体包括以下步骤:

S4.1将训练集中的句子转化为BIO标注模式;

S4.2将模板句子的BIO标注结果和威胁情报领域词汇知识库作为输入,对于模板句子BIO标注结果中的每一行,分别获取它的单词和标签;

S4.3如果标签是0,则将单词和标签拼接后存入列表;如果标签不是0,从知识库中获取一个领域词汇,判断一下领域词汇由几个单词组成;

S4.4如果领域词汇由一个单词组成,则将领域词汇与相应标签拼接后存入列表,如果领域词汇由多个单词组成,则将领域词汇的第一个单词与B-标签拼接后存入列表,将领域词汇第二个及以后的单词与I-标签拼接后存入列表;最后返回一个由填充模板生成的句子组成的句子列表并输出该列表;

S5:利用BERT+BiLSTM+CRF模型对步骤S4输出的增强数据集中的句子进行实体抽取,其中BERT层负责根据每个输入单词的上下文动态地为其生成词向量,生成的词向量序列将作为BiLSTM层的输入;BiLSTM层负责对输入序列的时间关系进行编码,并输出隐藏状态序列;CRF层对隐状态序列进行解码得到句子对应的标签序列,所得到的标签序列即为实体类型;

2)实体抽取完成后进行威胁情报关系抽取,包括如下步骤:

P1:从原始标

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档