- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
CN113609310A
CN113609310A
(12)发明专利申请
(10)申请公布号CN113609310A
(43)申请公布日2021.11.05
(21)申请号202110983670.X
(22)申请日2021.08.25
(71)申请人上海交通大学
地址200240上海市闵行区东川路800号
申请人上海燧原科技有限公司
(72)发明人姚建国程建南张亚林
(74)专利代理机构上海汉声知识产权代理有限
公司31236
代理人胡晶
(51)Int.Cl.
G06F16/36(2019.01)
G06F9/50(2006.01)
G06F9/54(2006.01)
G06T1/20(2006.01)
G06K9/62(2006.01)
权利要求书3页说明书12页附图3页
(54)发明名称
单机大规模知识图谱嵌入系统及方法
(57)摘要
本发明提供了一种单机大规模知识图谱嵌入方法及系统,包括:步骤S1:根据关系对知识图谱进行划分操作,得到多个子知识图谱;步骤S2:将各个子知识图谱与GPU绑定,利用GPU对子知识图谱进行训练,得到知识图谱中每个实体与关系对应的嵌入向量。相比于传统使用分布式集群来进行大规模知识图谱嵌入训练的方法,本发明使用非易失性内存大容量的特性,并且合理分配知识图谱训练过程中的数据在非易失性内存、GPU显存与DRAM的位置,能够克服分布式训练过程中网络通信所带来的性能开销,使得在不影响最终嵌入向量质量的情况下,总体训练效率提升40%-50%;同时还能大大节约搭建分布式集群
的费用,具有经济上的优势。
CPU
CPU0CPU1CPU_n
写入
非易失性内存+DRAM
写
入
取
显存
藏
读取
写入
写入
显存
GPU0
GPU0
1/3页A113609310CN权利要求书
1/3页
A
113609310
CN
2
1.一种单机大规模知识图谱嵌入方法,其特征在于,包括:
步骤S1:根据关系对知识图谱进行划分操作,得到多个子知识图谱;
步骤S2:将各个子知识图谱与GPU绑定,利用GPU对子知识图谱进行训练,得到知识图谱
中每个实体与关系对应的嵌入向量。
2.根据权利要求1所述的单机大规模知识图谱嵌入方法,其特征在于,所述步骤S2采
用:
步骤S2.1:读取每个子知识图谱的原始数据,并存放在知识图谱类中,将当前知识图谱
类数据存放在非易失性内存中;
步骤S2.2:为每个子知识图谱中的实体与关系进行嵌入向量的初始化,初始化的嵌入
向量存放在DRAM中,且声明实体的嵌入向量为统一内存空间;
步骤S2.3:初始化每个子知识图谱对应的采样池,每个采样池都包含两份缓存,GPU处
理其中一个缓存池数据,CPU为另一个缓存池采样数据;
步骤S2.4:将每个知识图谱的初始化嵌入向量传输到相应的GPU的共享内存中,将每个子知识图谱实体的别名表传入相应GPU的共享内存中,将逻辑表数据写入GPU的常量内存
中;
步骤S2.5:CPU线程在对应的子知识图谱中进行正采样操作,搜集到正采样得到的实体
与关系的嵌入向量,而后将正采样得到的数据传输到GPU共享内存中;
步骤S2.6:GPU根据相应子知识图谱中实体的别名表进行负采样,并通过PCIe读入采样
得到的实体对应的嵌入向量;
步骤S2.7:GPU利用共享内存中的正采样数据与负采样数据,根据逻辑表进行梯度下降
的前向传播与反向传播,更新正采样样例与负采样样例中实体与关系对应的嵌入向量;
步骤S2.8:将更新的嵌入向量写入DRAM中,CPU根据映射关系将GPU传回的嵌入向量写入原对应的嵌入向量中,完成对嵌入向量的更新;重复触发步骤S2.1至步骤S2.8,直至嵌入
向量收敛。
3.根据权利要求1所述的单机大规模知识图谱嵌入方法,其特征在于,在GPU端进行第n
次训练的过程中,CPU端准备第n+1次训练所需要的数据。
4.根据权利要求2所述的单机大规模知识图谱嵌入方法,其特征在于,所述步骤S2.5采用:使用多线程采样三元组,并搜集三元组中的关系与实体对应的嵌入向量,放入采样池中
的一个缓存中,而后将搜集得到的嵌入向量传到相应的GPU共享内存中。
5.根据权利要求2所述的单机大规模知识图谱嵌入方法,其特征在于,根据每个子知识
图谱中的实体出现的频率制作相应的别名表,并对别名表进行压缩。
6.根据权利要求5所述的单机大规模知识图谱嵌入方法,其特征在于,所述对别名表进
行压缩采用:
步骤S3:统计每个子知识图谱中实体出现的概率,根据出现
文档评论(0)