单机大规模知识图谱嵌入系统及方法.doc

下载文档

0
0
约2.07万字
约 19页
2024-05-18 发布于广东
举报
版权申诉
保障服务

单机大规模知识图谱嵌入系统及方法.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

CN113609310A

(12)发明专利申请

(10)申请公布号CN113609310A

(43)申请公布日2021.11.05

(21)申请号202110983670.X

(22)申请日2021.08.25

(71)申请人上海交通大学

地址200240上海市闵行区东川路800号

申请人上海燧原科技有限公司

(72)发明人姚建国程建南张亚林

(74)专利代理机构上海汉声知识产权代理有限

公司31236

代理人胡晶

(51)Int.Cl.

G06F16/36(2019.01)

G06F9/50(2006.01)

G06F9/54(2006.01)

G06T1/20(2006.01)

G06K9/62(2006.01)

权利要求书3页说明书12页附图3页

(54)发明名称

单机大规模知识图谱嵌入系统及方法

(57)摘要

本发明提供了一种单机大规模知识图谱嵌入方法及系统，包括：步骤S1:根据关系对知识图谱进行划分操作，得到多个子知识图谱；步骤S2:将各个子知识图谱与GPU绑定，利用GPU对子知识图谱进行训练，得到知识图谱中每个实体与关系对应的嵌入向量。相比于传统使用分布式集群来进行大规模知识图谱嵌入训练的方法，本发明使用非易失性内存大容量的特性，并且合理分配知识图谱训练过程中的数据在非易失性内存、GPU显存与DRAM的位置，能够克服分布式训练过程中网络通信所带来的性能开销，使得在不影响最终嵌入向量质量的情况下，总体训练效率提升40%-50%;同时还能大大节约搭建分布式集群

的费用，具有经济上的优势。

CPU

CPU0CPU1CPU_n

写入

非易失性内存+DRAM

写

入

取

显存

藏

读取

写入

显存

GPU0

1/3页A113609310CN权利要求书

1/3页

113609310

1.一种单机大规模知识图谱嵌入方法，其特征在于，包括：

步骤S1:根据关系对知识图谱进行划分操作，得到多个子知识图谱；

步骤S2:将各个子知识图谱与GPU绑定，利用GPU对子知识图谱进行训练，得到知识图谱

中每个实体与关系对应的嵌入向量。

2.根据权利要求1所述的单机大规模知识图谱嵌入方法，其特征在于，所述步骤S2采

用：

步骤S2.1:读取每个子知识图谱的原始数据，并存放在知识图谱类中，将当前知识图谱

类数据存放在非易失性内存中；

步骤S2.2:为每个子知识图谱中的实体与关系进行嵌入向量的初始化，初始化的嵌入

向量存放在DRAM中，且声明实体的嵌入向量为统一内存空间；

步骤S2.3:初始化每个子知识图谱对应的采样池，每个采样池都包含两份缓存，GPU处

理其中一个缓存池数据，CPU为另一个缓存池采样数据；

步骤S2.4:将每个知识图谱的初始化嵌入向量传输到相应的GPU的共享内存中，将每个子知识图谱实体的别名表传入相应GPU的共享内存中，将逻辑表数据写入GPU的常量内存

中；

步骤S2.5:CPU线程在对应的子知识图谱中进行正采样操作，搜集到正采样得到的实体

与关系的嵌入向量，而后将正采样得到的数据传输到GPU共享内存中；

步骤S2.6:GPU根据相应子知识图谱中实体的别名表进行负采样，并通过PCIe读入采样

得到的实体对应的嵌入向量；

步骤S2.7:GPU利用共享内存中的正采样数据与负采样数据，根据逻辑表进行梯度下降

的前向传播与反向传播，更新正采样样例与负采样样例中实体与关系对应的嵌入向量；

步骤S2.8:将更新的嵌入向量写入DRAM中，CPU根据映射关系将GPU传回的嵌入向量写入原对应的嵌入向量中，完成对嵌入向量的更新；重复触发步骤S2.1至步骤S2.8,直至嵌入

向量收敛。

3.根据权利要求1所述的单机大规模知识图谱嵌入方法，其特征在于，在GPU端进行第n

次训练的过程中，CPU端准备第n+1次训练所需要的数据。

4.根据权利要求2所述的单机大规模知识图谱嵌入方法，其特征在于，所述步骤S2.5采用：使用多线程采样三元组，并搜集三元组中的关系与实体对应的嵌入向量，放入采样池中

的一个缓存中，而后将搜集得到的嵌入向量传到相应的GPU共享内存中。

5.根据权利要求2所述的单机大规模知识图谱嵌入方法，其特征在于，根据每个子知识

图谱中的实体出现的频率制作相应的别名表，并对别名表进行压缩。

6.根据权利要求5所述的单机大规模知识图谱嵌入方法，其特征在于，所述对别名表进

行压缩采用：

步骤S3:统计每个子知识图谱中实体出现的概率，根据出现

您可能关注的文档

文档评论（0）

chenzehao888 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

单机大规模知识图谱嵌入系统及方法.doc