- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 111401066 A
(43)申请公布日
2020.07.10
(21)申请号 202010170529.3
(22)申请日 2020.03.12
(71)申请人 腾讯科技(深圳)有限公司
地址 518000 广东省深圳市南山区高新区
科技中一路腾讯大厦35层
(72)发明人 邵纪春 孙钟前 胡海峰
(74)专利代理机构 北京派特恩知识产权代理有
限公司 11270
代理人 崔晓岚 张颖玲
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 16/35(2019.01)
权利要求书4页 说明书20页 附图13页
(54)发明名称
基于人工智能的词分类模型训练方法、词处
理方法及装置
(57)摘要
本发明提供了一种基于人工智能的词分类
模型训练方法、词处理方法、装置、电子设备及存
储介质;方法包括:获取由多个种子实体词组成
的种子实体词集合;其中,所述多个种子实体词
属于待挖掘实体类型;将所述种子实体词集合内
的任意两个种子实体词进行组合,得到正例样本
对;获取包括所述种子实体词的历史文本,并根
据所述种子实体词和排除所述种子实体词的所
述历史文本,构建负例样本对;通过所述正例样
本对和所述负例样本对更新词分类模型;其中,
更新后的所述词分类模型用于确定待识别实体
A 词属于所述待挖掘实体类型的概率。通过本发
6 明,能够提升模型训练样本的丰富性,降低实体
6
0
1 挖掘所需要的语料标注成本,同时也能够提升词
0
4
1 分类模型的训练效果。
1
1
N
C
CN 111401066 A 权 利 要 求 书 1/4页
1.一种基于人工智能的词分类模型训练方法,其特征在于,包括:
获取由多个种子实体词组成的种子实体词集合;其中,所述多个种子实体词属于待挖
掘实体类型;
将所述种子实体词集合内的任意两个种子实体词进行组合,得到正例样本对;
获取包括所述种子实体词的历史文本,并
根据所述种子实体词和排除所述种子实体词的所述历史文本,构建负例样本对;
通过所述正例样本对和所述负例样本对更新词分类模型;
其中,更新后的所述词分类模型用于确定待识别实体词属于所述待挖掘实体类型的概
率。
2.根据权利要求1所述的词分类模型训练方法,其特征在于,所述根据所述种子实体词
和排除所述种子实体词的所述历史文本,构建负例样本对,包括:
通过以下方式至少之一构建负例样本对:
将所述种子实体词与排除所述种子实体词的所述历史文本进行组合,得到负例样本
对;
对排除所述种子实体词的所述历史文本进行分词处理,并
对分词处理得到的词进行采样处理,将所述种子实体词与采样处理得到的词进行组
合,得到负例样本对。
3.根据权利要求1至2任一项所述的词分类模型训练方法,其特征在于,
所述将所述种子实体词集合内的任意两个种子实体词进行组合,得到正例样本对之
后,还包括:
将所述正例样本对的实际标签设置为正例标签;
所述根据所述种子实体词和排除所述种子实体词的所述历史文本,构建负例样本对之
后,还包括:
将所述负例样本对的实际标签设置为负例标签;
所述通过所述正例样本对和所述负例样本对更新词分类模型,包括:
通过所述词分类模型对训练样本对进行预测处理,得到所述训练样本对的预测标签;
根据所述训练样本对的实际标签与预测标签之间的差异,在所述词分类模型中进
文档评论(0)