- 10
- 0
- 约1.58万字
- 约 13页
- 2023-06-06 发布于四川
- 举报
本发明提供一种垂直领域语料数据筛选方法及系统,该方法包括:对待筛选语料数据进行分词,将所述待筛选语料数据的词转换为词向量;将所述待筛选语料数据的所有词的词向量进行融合,将融合结果作为所述待筛选语料数据的语义向量;计算所述待筛选语料数据的语义向量和垂直领域的样本语料数据预先获取的语义向量之间的相似度,若所述相似度大于预设阈值,则确定所述待筛选语料数据为所述垂直领域的语料数据。本发明实现一方面可以对文档级、句子级和段落级的待筛选语料数据进行筛选,另一方面,在垂直领域的样本语料数据较少时,依然能保证语
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 112765325 A
(43)申请公布日 2021.05.07
(21)申请号 202110108491.1 G06F 40/30 (2020.01)
(22)申请日 2
原创力文档

文档评论(0)