CN115098694B 基于知识图谱表示的海关数据分类方法、装置及存储介质 (中华人民共和国南京海关).docxVIP

CN115098694B 基于知识图谱表示的海关数据分类方法、装置及存储介质 (中华人民共和国南京海关).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115098694B(45)授权公告日2025.07.01

(21)申请号202210662243.6

(22)申请日2022.06.13

(65)同一申请的已公布的文献号申请公布号CN115098694A

(43)申请公布日2022.09.23

GO6F40/279(2020.01)

GO6F40/284(2020.01)

GO6F40/289(2020.01)

GO6N3/0464(2023.01)

GO6N3/048(2023.01)

GO6N3/0985(2023.01)

(73)专利权人中华人民共和国南京海关

地址210000江苏省南京市秦淮区龙蟠中

路360号

(72)发明人朱立平易欣王文卓

(74)专利代理机构北京德崇智捷知识产权代理

有限公司11467专利代理师王斌

(56)对比文件

CN110334219A,2019.10.15CN111160564A,2020.05.15审查员刘曼

(51)Int.CI.

GO6F16/36(2019.01)

GO6F16/353(2025.01)权利要求书2页说明书7页附图1页

(54)发明名称

基于知识图谱表示的海关数据分类方法、装置及存储介质

(57)摘要

CN115098694B本发明公开了一种基于知识图谱表示的海关数据分类方法、装置及存储介质,用于解决海关多属性数据中的分类问题,方法包括:在海关每条多属性数据中定义实体和关系,构建成知识图谱三元组;利用一个新型翻译模块无监督地训练出实体和关系的表示;将实体的表示整合为海关数据的预训练表示层;最后用一个分类模块提取预训练表示层的特征,同时对于海关数据中的文本信息用传统的语言表示并提取特征;在结合了知识图谱表示和语言模型表示后对海关中一些核心属性进行分类,在该表示的基础上,采用轻量级的并行卷积单元就能够快捷地计算出海

CN115098694B

自度如是活放多

CN115098694B权利要求书1/2页

2

1.一种基于知识图谱表示的海关数据分类方法,其特征在于,包括如下步骤:

步骤1:提取海关数据中包含名词实体的属性;

步骤2:利用步骤1中提取的实体构建三元组,将每条海关数据拆成多个三元组:三元组中头实体,关系,尾实体分别对应海关数据中数据序号,属性名称,该条数据中对应属性的值;

步骤3:对步骤2的尾实体进行分词,去停用词,得到文本的序列化表示;

步骤4:将步骤2中得到的头实体,关系和尾实体通过三个不同的嵌入层,将头实体,关系,尾实体嵌入到低维向量中,同时,由步骤3中的尾实体序列化表示进行词嵌入并通过一层BiLSTM处理为等长特征,头实体和关系的嵌入向量,以及尾实体嵌入向量和BiLSTM输出特征的组合分别记录为h,1,t;

步骤5:构建一个翻译模块,利用h和1作为输入,输出一个翻译矩阵;

步骤6:将步骤5得到的翻译矩阵与h相乘,得到h的翻译结果t*,并计算t和t*之间的距离;

步骤7:利用步骤6的计算结果,计算loss函数,在没有监督信息的条件下,训练嵌入层模块和翻译模块;

步骤8:将t的嵌入层和BiLSTM层作为海关数据每条属性的预训练语言表示方法,对于单条数据,将多条属性得到的表示拼接,作为分类的输入数据;

步骤9:将步骤6的数据输入分类模块,提取数据特征;

步骤10:将步骤9得到的数据特征展开成一维向量并拼接,通过全连接层进行分类,使用交叉熵loss训练分类模块和全连接层;

步骤11:采用步骤10训练的分类模块和全连接层对海关数据进行分类。

2.根据权利要求1所述的基于知识图谱表示的海关数据分类方法,其特征在于,步骤3中,对文本进行编码按类型进行编码,其中,对于尾实体中的“商品描述”中文文本,进行逐字地分词,根据jieba分词中的字典进行编码;对于商品名称和电商名称之类属性的短文本,以训练集中所有出现的商品名称,电商名称为字典,在不分词的情况下编码;对于三元组中的关系,采用不分词直接编码的方法。

3.根据权利要求1所述的基于知识图谱表示的海关数据分类方法,其特

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档