基于人工智能的信息抽取方法及存储介质和相关装置.pdf

下载文档

8
0
约2.16万字
约 21页
2020-09-15 发布于湖南
举报
版权申诉
保障服务

基于人工智能的信息抽取方法及存储介质和相关装置.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 111143536 A (43)申请公布日 2020.05.12 (21)申请号 201911397526.7 (22)申请日 2019.12.30 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层 (72)发明人张倩汶　闫昭　饶孟良　曹云波　 (74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙) 44300 代理人汪阮磊 (51)Int.Cl. G06F 16/332(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 20/00(2019.01) 权利要求书2页说明书11页附图7页 (54)发明名称基于人工智能的信息抽取方法及存储介质和相关装置 (57)摘要本发明实施例公开了基于人工智能的信息抽取方法及存储介质和相关装置，应用于人工智能的信息处理技术领域。信息抽取装置针对待处理文档中的各句短文本，先根据预置的关系分类模型确定短文本中包含的关系属性，然后再根据预置的实体抽取模型抽取这些关系属性对应的实体对，进行可以形成各句短文本对应的三元组信息。实践证明，通过不同的机器学习模型分别确定关系属性及其对应的实体对的方式，可以准确地获取到待处理文档的三元组信息，且由于采用机器学习模型来进行信息抽取，使得可以进行 A 迁移学习。 6 3 5 3 4 1 1 1 1 N C CN 111143536 A 权　利　要　求　书 1/2页 1.一种基于人工智能的信息抽取方法，其特征在于，包括：获取待处理文档包括的至少一句短文本；根据预置的关系分类模型，分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性；根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对；根据所述各句短文本的至少一个关系属性及其对应的实体对，形成所述各句短文本的三元组信息。 2.如权利要求1所述的方法，其特征在于，所述获取待处理文档包括的至少一句短文本之后，还包括：对所述各句短文本中的描述主体进行增强处理，得到增强后短文本；则所述分别确定所述至少一句短文本中各句短文本包含的至少一个关系属性，具体包括：分别根据所述增强后短文本，确定所述各句短文本包含的至少一个关系属性。 3.如权利要求1所述的方法，其特征在于，所述根据所述各句短文本的至少一个关系属性及预置的实体抽取模型，分别抽取所述各句短文本中至少一个关系属性对应的实体对，包括：由所述预置的实体抽取模型根据所述各句短文本，及所述各句短文本包含的至少一个关系属性，输出所述各句短文本中各个字符的句子成分属性标识及对应的关系属性标识；所述句子成分属性标识包括主语标识和宾语标识；确定所述各句短文本中主语标识对应的字符，与所述各句短文本中宾语标识对应的字符为实体对。 4.如权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：确定关系分类初始模型和实体抽取初始模型；确定训练样本，所述训练样本中包括多句样本短文本，及各句样本短文本所包含的关系属性的第一标注信息，及所述各句短文本所包含的实体对的第二标注信息；