CN114724166B 一种标题抽取模型的生成方法、装置及电子设备 (北京百度网讯科技有限公司).docxVIP

CN114724166B 一种标题抽取模型的生成方法、装置及电子设备 (北京百度网讯科技有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114724166B(45)授权公告日2025.07.04

(21)申请号202210413888.6

(22)申请日2022.04.15

(65)同一申请的已公布的文献号申请公布号CN114724166A

(43)申请公布日2022.07.08

(73)专利权人北京百度网讯科技有限公司

地址100085北京市海淀区上地十街10号

百度大厦2层

(72)发明人方文浩苏磊韩光耀陈禹燊

(74)专利代理机构北京猷德知识产权代理有限公司16084

专利代理师范继晨

(51)Int.CI.

GO6V30/416(2022.01)

GO6V30/414(2022.01)

GO6V30/19(2022.01)

GO6F40/258(2020.01)

GO6F40/30(2020.01)

GO6F40/253(2020.01)

GO6F40/216(2020.01)

(56)对比文件

CN113836268A,2021.12.24审查员李斌

权利要求书3页说明书11页附图5页

(54)发明名称

一种标题抽取模型的生成方法、装置及电子设备

(57)摘要

CN114724166B本公开提供了一种标题抽取模型的生成方法、装置及电子设备,涉及数据处理领域,尤其涉及自然语言处理、深度学习、光学字符识别、数据处理等技术领域。该方案为:获取文档样本,其中,文档样本中的文档为图像格式;对文档样本中的文档进行文本特征提取,得到文本特征信息,并对文档进行图像特征提取,得到图像特征信息,文本特征信息表征文档样本所包含文本的文本内容以及文本位置,图像特征信息表征文档样本所包含文档的文档布局;基于文本特征信息对文档样本进行标注,得到标注后的文档样本;对标注后的文档样本和图像特征信息进行特征融合,得到训练样本;基于训练样本生成标题抽取模型,标题抽取模型用于提取待处理文档中的标

CN114724166B

获取文档样本

对文档样本中的文档进行文本特征提

取,得到文本特征信息,并对文档进行图像特征提取,得到图像特征信息

基于文本特征信息对文档样本进行标注,得到标注后的文档样本

对标注后的文档样本和图像特征信息进行特征融合,得到训练样本

基于训练样本生成标题抽取模型

S102

S104

S106

S108

S110

CN114724166B权利要求书1/3页

2

1.一种标题抽取模型的生成方法,包括:

获取文档样本,其中,所述文档样本中的文档为图像格式;

对所述文档样本中的文档进行文本特征提取,得到文本特征信息,并对所述文档进行图像特征提取,得到图像特征信息,其中,所述文本特征信息表征了所述文档样本所包含文本的文本内容以及文本位置,所述图像特征信息表征了所述文档样本所包含文档的文档布

局;

基于所述文本特征信息对所述文档样本进行标注,得到标注后的文档样本;

对所述标注后的文档样本和所述图像特征信息进行特征融合,得到训练样本;

基于所述训练样本生成标题抽取模型,其中,所述标题抽取模型用于提取待处理文档中的标题;

其中,对所述文档样本中的文档进行文本特征提取,得到文本特征信息,还包括:

对所述文档样本所包含的文档进行切分处理,得到文档所对应的多个图像;

对所述多个图像中的至少一个图像进行文本识别,得到第一文档以及第二文档,其中,所述第一文档至少包括:以行为单位的第一文本内容以及至少一行文本在对应文档中的第一位置信息,所述第二文档至少包括:所述第一文本内容,所述第一位置信息、以字符为单位的第二文本内容以及至少一个字符在对应文档中的第二位置信息。

2.根据权利要求1所述的方法,其中,所述文本特征信息至少包括所述第一文本内容、所述第一位置信息、所述第二文本内容、所述第二位置信息。

3.根据权利要求2所述的方法,其中,基于所述文本特征信息对所述文档样本进行标注,得到标注后的文档样本,包括:

对所述第一文档进行标题标注,得到标注后的第一文档;

获取所述标注后的第一文档中的标题内容;

基于所述标题

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档