CN116150361B 一种财务报表附注的事件抽取方法、系统及存储介质 (暨南大学).docxVIP

  • 0
  • 0
  • 约2.86万字
  • 约 38页
  • 2026-01-11 发布于重庆
  • 举报

CN116150361B 一种财务报表附注的事件抽取方法、系统及存储介质 (暨南大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116150361B(45)授权公告日2025.07.01

(21)申请号202211680822.X

(22)申请日2022.12.27

(65)同一申请的已公布的文献号申请公布号CN116150361A

(43)申请公布日2023.05.23

(73)专利权人暨南大学

地址510632广东省广州市天河区黄埔大

道西601号

(72)发明人潘定周星

(74)专利代理机构广州市华学知识产权代理有限公司44245

专利代理师郑秋松

(51)Int.CI.

GO6F16/35(2025.01)

GO6F40/30(2020.01)

GO6F40/289(2020.01)

GO6N3/0455(2023.01)

(56)对比文件

US2018103052A1,2018.04.12CN113591483A,2021.11.02

审查员朱琦

权利要求书4页说明书13页附图4页

(54)发明名称

一种财务报表附注的事件抽取方法、系统及存储介质

(57)摘要

CN116150361B本发明公开了一种财务报表附注的事件抽取方法、系统及存储介质,该方法包括下述步骤:获取财务报告PDF文档,经数据预处理后得到财务报表附注文本的TXT文档;识别和标注财务报表附注文本的TXT文档的标题及其层级和段落,获得标题集和段落集;基于Transformer编码器识别和标注财务报表附注中财务事件的事件论元,同时获得事件论元的向量表示;将段落和标题及其层级的语义特征用向量表示,将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量矩阵;学习事件论元和标题及其层级的特征判断事件类别,学习事件论元、标题及其层级和记忆向量的特征,基于Transformer编码器和线性二分类器将事件论元填充到事件表的当前事件角色中,获得当前段落

CN116150361B

键的篇章级语义信息,利用篇章级语义信息和事件论元信息识别财务报表附注文本中的事件类别,并设计事件表填充的方式实现多个事件记录同时抽取,整体上提升财务报表附注的事件抽取的准确度。

获取财务报告

获取财务报告PDF文档,经数据预处理后得到财务报表附注文本的TXT文档

基于知识库识别和标注财务报表附注文本中的标题及标题层级和段落,获得标题集和段落集

基于Transformer编码器识别和标注财务报表附注的事件论元,同时获得事件论元的向量表示

基于Transformer编码器获得融合标题及标题层级和段落语义的向量矩阵,

经事件类别分类器,获得当前向量矩阵所有的事件类别的概率,

同时通过索引查询输出各事件类别中事件角色的向量表示

将事件论元、事件角色和构建的记忆向量的向量表示拼接后输入Transformer编码器,再经线性二分类器,获得事件论元填充当前事件角色的概率

选取概率为设定值的事件论元填充到事件表的当前事件角色中,

更新已填充过的事件论元的记忆向量和事件角色的向量化表示,获得当前段落所包含的所有事件记录

CN116150361B权利要求书1/4页

2

1.一种财务报表附注的事件抽取方法,其特征在于,包括下述步骤:

获取数据库文件中的财务报告的PDF文档,经过数据预处理,将PDF文档转成TXT文档,结合知识库中的正则表达式匹配财务报表附注文本的TXT文档;

基于知识库识别和标注财务报表附注文本的TXT文档的标题,以及标题层级和段落,获得标题集和段落集;

将段落集进行分句、分词获得分词列表,基于Transformer编码器学习段落中的语义,将Transformer编码器输出层的向量矩阵输入CRF模型,识别和标注财务报表附注中财务事件的事件论元,获得事件论元的向量表示;

将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量矩阵,将拼接后的向量矩阵输入Transformer编码器,获得融合标题及标题层次和段落语义的向量矩阵,将向量矩阵输入到事件类别分类器中,获得当前向量矩阵所有的事件类别的概率,选取最大概率的事件类别作为当前向量矩阵的事件类别,通过索引查询预定义事件信息中当前触发的事件类别的事件角色,将事件角色按照预定义的顺序输出,得到事件角色的向量表示;

构建用于记录事件论元填充过程的记忆向量,将事件论元的

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档