CN116578708B 一种基于图神经网络的论文数据姓名消歧方法 (浙江理工大学).docxVIP

CN116578708B 一种基于图神经网络的论文数据姓名消歧方法 (浙江理工大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116578708B(45)授权公告日2025.07.01

(21)申请号202310584872.6

(22)申请日2023.05.23

(65)同一申请的已公布的文献号申请公布号CN116578708A

(43)申请公布日2023.08.11

(73)专利权人浙江理工大学

地址310018浙江省杭州市经济技术开发

区白杨街道2号大街928号

(72)发明人张华熊汤哲冲方志坚

(74)专利代理机构杭州天勤知识产权代理有限公司33224

专利代理师王琛

(51)Int.CI.

GO6F16/355(2025.01)

GO6F16/36(2019.01)

GO6F40/284(2020.01)

GO6F40/216(2020.01)

GO6F18/231(2023.01)

GO6F18/22(2023.01)

GO6N3/042(2023.01)

GO6N3/0455(2023.01)

GO6N3/088(2023.01)

(56)对比文件

汤哲冲.基于图神经网络的姓名消歧算法研究.中国优秀硕士论文全文数据库.2024,全文.

审查员王垚

权利要求书2页说明书8页附图3页

(54)发明名称

一种基于图神经网络的论文数据姓名消歧

方法

(57)摘要

CN116578708B本发明公开了一种基于图神经网络的论文数据姓名消歧方法,该算法将每篇论文作为异质网络的节点,通过论文属性特征之间的强关联性建立边,并使用无监督的图自动编码器学习得到每篇论文的表征向量,同时还采用分层的注意力机制网络来增强论文的向量表示,最后通过层次聚类算法实现同名作者消歧。相较于传统方法,本发明利用图神经网络对异质网络中的节点进行表征,可以充分利用节点之间的关联信息,提高消歧的准确率;本发明使用无监督的图自动编码器进行论文表征向量的学习,避免了传统消歧方法中需要大量标注数据的问题;本发明采用分层的注意力机制网络来学习节点和元路径之间

CN116578708B

CN116578708B权利要求书1/2页

2

1.一种基于图神经网络的论文数据姓名消歧方法,包括如下步骤:

(1)利用特征工程提取论文数据集中每篇论文的论文特征作为姓名消歧的元数据,并将每篇论文作为异质网络中的节点;

(2)基于拼音声母的转换方法将论文数据集划分为若干个同名作者簇,以解决同一作者姓名有多种不同写法的问题;

(3)使用Word2Vec对论文特征进行词向量嵌入表示并生成每篇论文的特征向量,进而采用三元组损失模型对特征向量进行调整,即利用大量正负样本对作为训练数据,正样本对为属于同一作者的两篇论文,负样本对为属于不同作者的两篇论文,进而根据以下损失函数ζa对三元组损失模型进行训练,训练完成后取模型中的Word2Vec重新计算生成每篇论文的特征向量,最后基于特征向量进行初步聚类;

其中:y;;=1表示论文i和论文j属于同一作者即正样本对,yik=0表示论文i和论文k属于不同作者即负样本对,d表示论文i与论文j特征向量之间的欧式距离,d表示论文i与论文k特征向量之间的欧式距离,m为一个固定的边界距离常量,[]为hinge损失函数;

(4)根据论文的共同通讯作者构建学术关系网络,并基于强规则对同一关系网络中的同名作者进行二次聚类;

(5)利用图自动编码器来学习学术关系网络中节点的分布式表示,从而得到各节点包含论文属性信息和论文间关系信息的表征向量;

(6)使用包含节点级和语义级的分层注意力机制网络来学习同一元路径上不同节点之间的权值关系以及不同元路径之间的权值关系,进而通过加权融合以增强论文节点的表征向量;

(7)根据增强后得到的论文表征向量通过层次聚类算法进行聚类,从而实现姓名消歧。

2.根据权利要求1所述的论文数据姓名消歧方法,其特征在于:所述步骤(1)中提取的论文特征由论文属性特征和论文关系特征两部分组成,其中论文属性特征包括作者姓名、邮箱、地址机构名称、标题,论文关系特征包括合著者、关键词、出版物。

3.根据权利要求1所述的论文数据姓名消歧方法,其特征在于:所述步骤(2)的具体实现过程如下:

Step1:将所有论文的作者姓名均视为类,构成类集合A={a?,a?,…,a};

Step2:将所有作者姓名均统一成小写并去除特殊符号;

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档