文本分类方法、装置、存储介质及设备.pdf

下载文档

7
0
约2.92万字
约 26页
2020-09-15 发布于湖南
举报
版权申诉
保障服务

文本分类方法、装置、存储介质及设备.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 111444709 A (43)申请公布日 2020.07.24 (21)申请号 202010159121.6 (22)申请日 2020.03.09 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层 (72)发明人刘巍　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 11138 代理人祝亚男 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) 权利要求书3页说明书15页附图7页 (54)发明名称文本分类方法、装置、存储介质及设备 (57)摘要本申请公开了一种文本分类方法、装置、存储介质及设备，属于人工智能技术领域。包括：获取待处理文本；调用情感分析模型中的目标语言模型对待处理文本进行编码处理，得到特征向量序列，目标语言模型为BERT模型，特征向量序列表征了待处理文本中词之间的上下文关系；对确定的目标词进行向量化处理得到目标特征向量；对特征向量序列和目标特征向量进行第一特征融合处理，根据得到的第一特征向量和特征向量序列获取第二特征向量；对第二特征向量和目标特征向量进行第二特征融合处理；基于得到的第三特征向量，预测目标词在待处理文本中的情感 A 极性。本申请能够准确预测目标词在文本中的情 9 感极性，即可实现在文本中精准地对目标词进行 0 7 4 情感分类。 4 4 1 1 1 N C CN 111444709 A 权　利　要　求　书 1/3页 1.一种文本分类方法，其特征在于，所述方法包括：获取待处理文本；调用情感分析模型中的目标语言模型对所述待处理文本进行编码处理，得到特征向量序列，所述目标语言模型为基于变换器的双向编码表征BERT模型，所述特征向量序列表征了所述待处理文本中词之间的上下文关系；对确定的目标词进行向量化处理得到目标特征向量；对所述特征向量序列和所述目标特征向量进行第一特征融合处理，根据得到的第一特征向量和所述特征向量序列获取第二特征向量；对所述第二特征向量和所述目标特征向量进行第二特征融合处理；基于得到的第三特征向量，预测所述目标词在所述待处理文本中的情感极性。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取训练数据集和目标训练参数，所述训练数据集中包括训练样本和与所述训练样本匹配的情感极性标签；根据所述目标训练参数，以所述训练样本作为初始模型的输入，以与所述训练样本匹配的情感极性标签作为所述初始模型的输出，对所述初始模型进行训练；获取测试数据集，响应于所述初始模型对所述测试数据集的预测准确率高于目标阈值，停止训练过程，得到所述情感分析模型，所述测试数据集中包括测试样本和与所述测试样本匹配的情感极性标签；其中，所述预测准确率是基于所述初始模型输出的情感极性预测结果和与所述测试样本匹配的情感极性标签确定的。 3.根据权利要求1所述的方法，其特征在于，所述目标语言模型包括顺次堆叠设置的N 层结构相同的特征编码器，N的取值为正整数，所述方法还包括：在所述目标语言模型的预训练过程中，获取训练语料的词向量、句子编码向量和位置编码向量；将所述词向量、所述句子编码向量和所述位置编码向量进行相加处理，将得