- 0
- 0
- 约1.85万字
- 约 32页
- 2026-01-20 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN116450844B(45)授权公告日2025.07.11
(21)申请号202310323400.5
(22)申请日2023.03.29
(65)同一申请的已公布的文献号申请公布号CN116450844A
(43)申请公布日2023.07.18
(73)专利权人江苏大学
地址212013江苏省镇江市京口区学府路
301号
(72)发明人袁陈翔朱小龙
(74)专利代理机构南京智造力知识产权代理有限公司32382
专利代理师汪芬
(51)Int.CI.
GO6F16/36(2019.01)
GO6F40/295(2020.01)
GO6N3/0455(2023.01)
GO6N3/0442(2023.01)
GO6N3/047(2023.01)
GO6N3/048(2023.01)
GO6N3/082(2023.01)
GO6F16/353(2025.01)
GO6N5/022(2023.01)
(56)对比文件
袁陈翔.面向非结构化数据的威胁情报知识图谱构建方法研究与应用.中国优秀硕士论文全文数据库.2024,(第5期),全文.
审查员王垚
权利要求书3页说明书9页附图6页
(54)发明名称
面向非结构化数据的威胁情报实体关系抽取方法
(57)摘要
CN116450844B本发明涉及威胁情报命名实体识别领域,具体涉及一种面向非结构化数据的威胁情报实体关系抽取方法,基于数据增强和BERT的威胁情报命名实体识别方法和融合多元实体信息的威胁情报实体关系抽取方法来对非结构化文本中的网络威胁情报实体关系进行准确抽取。本发明通过增加漏洞、域名、IP的实体数量,增加攻击组织和恶意软件实体的样本多样性,寻找包含待增强类型实体的句子作为模板句子,将知识库中同类型实体填入模板句子生成新的包含特定类型实体的句子,将新生成的句子加入训练集以实现数据增强从而提升语义准确性。本发明将实体语义信息和实体边界信息进行融合,将实体类型信息添加到
CN116450844B
数据集预处理
数据集预处理
威胁情报本体构建
BERT+BiLSTM+CRF威胁情报实体抽取
威胁情报关系抽取
威胁情报知识图谱构建
模板句子构建
CN116450844B权利要求书1/3页
2
1.一种面向非结构化数据的威胁情报实体关系抽取方法,其特征在于,包括以下三个部分:
1)威胁情报实体抽取,包括如下步骤:
S1:基于STIX威胁情报标准定义威胁实体类型和威胁情报实体间关系;
S2:构建NER原始标注数据集、威胁情报领域词汇知识库;
S3:在原始标注数据集中寻找包含待增强类型实体的句子作为模板句子,将威胁情报领域词汇知识库中的同类型实体填入模板句子生成新的包含特定类型实体的句子,将新生成的句子加入NER原始标注数据集中;
S4:填充模板句子:将模板句子转化为BIO标注模式,并将标注结果与威胁情报领域词汇知识库作为输入,经由模板句子填充算法生成并输出模板填充后的句子,输出的句子构成增强数据集;
所述步骤S4的模板句子填充算法具体包括以下步骤:
S4.1将训练集中的句子转化为BIO标注模式;
S4.2将模板句子的BIO标注结果和威胁情报领域词汇知识库作为输入,对于模板句子BIO标注结果中的每一行,分别获取它的单词和标签;
S4.3如果标签是0,则将单词和标签拼接后存入列表;如果标签不是0,从知识库中获取一个领域词汇,判断一下领域词汇由几个单词组成;
S4.4如果领域词汇由一个单词组成,则将领域词汇与相应标签拼接后存入列表,如果领域词汇由多个单词组成,则将领域词汇的第一个单词与B-标签拼接后存入列表,将领域词汇第二个及以后的单词与I-标签拼接后存入列表;最后返回一个由填充模板生成的句子组成的句子列表并输出该列表;
S5:利用BERT+BiLSTM+CRF模型对步骤S4输出的增强数据集中的句子进行实体抽取,其中BERT层负责根据每个输入单词的上下文动态地为其生成词向量,生成的词向量序列将作为BiLSTM层的输入;BiLSTM层负责对输入序列的时间关系进行编码,并输出隐藏状态序列;CRF层对隐状态序列进行解码得到句子对应的标签序列,所得到的标签序列即为实体类型;
2)实体抽取完成后进行威胁情报关系抽取,包括如下步骤:
P1:从原始标
您可能关注的文档
- CN115240578B 命令模式与视频模式间无缝切换的方法和装置及显示装置 (美格纳智芯混合信号有限公司).docx
- CN115271161B 一种多能负荷短期预测方法 (华南理工大学).docx
- CN115309195B 一种光伏跟踪轴的控制方法、装置及光伏跟踪系统 (仁卓智能科技有限公司).docx
- CN115309814B 基于结构化低秩张量补全的物联网数据重建方法 (河北工业大学).docx
- CN115310378B 一种极端台风灾害下电网韧性评估及差异化规划方法 (武汉大学).docx
- CN115330663B 眼前节oct图像中巩膜镜和泪液镜边界分割方法 (温州医科大学).docx
- CN115344041B 一种自移动装置的控制方法、自移动装置及自移动设备 (科沃斯机器人股份有限公司).docx
- CN115346463B 一种图像显示方法及装置 (北京奕斯伟计算技术股份有限公司).docx
- CN115408860B 一种风电场风速-功率数据的异常值监测及修正方法 (河北工业大学).docx
- CN115455382B 一种二进制函数代码的语义比对方法及装置 (武汉大学).docx
- CN116721398B 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 (长沙理工大学).docx
- CN116738069B 融合结构邻居和语义邻居的解耦图对比协同过滤推荐方法 (南京工业大学).docx
- CN116912561B 基于多视角自适应图卷积网络的点云数据分类及分割方法 (上海交通大学).docx
- CN116949600B 一种高低黏pet双组份纤维熔体直纺的方法 (江苏轩达高分子材料有限公司).docx
- CN117165721B 一种病毒核酸载体的单颗粒分析方法 (厦门福流生物科技有限公司).docx
- CN117194710B 多粒度视频检索方法及装置 (电子科技大学).docx
- CN117218350B 一种基于固态雷达的slam实现方法及系统 (中南林业科技大学).docx
- CN117560577B 虚实材质颜色对齐方法、装置、设备及存储介质 (神力视界(深圳)文化科技有限公司).docx
- CN117750773B 用薄栅极多晶硅形成高电压晶体管的方法 (英飞凌科技有限责任公司).docx
- CN117972787B 一种基于jwt的大模型知识库访问控制方法及系统 (行至智能(北京)技术有限公司).docx
原创力文档

文档评论(0)