CN114625879B 基于自适应变分编码器的短文本聚类方法 (北京工业大学).docxVIP

CN114625879B 基于自适应变分编码器的短文本聚类方法 (北京工业大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114625879B(45)授权公告日2025.07.01

(21)申请号202210299111.1

(22)申请日2022.03.13

(65)同一申请的已公布的文献号申请公布号CN114625879A

(43)申请公布日2022.06.14

(73)专利权人北京工业大学

地址100124北京市朝阳区平乐园100号

(72)发明人范青武王子栋

(74)专利代理机构北京思海天达知识产权代理有限公司11203

专利代理师刘萍

(51)Int.CI.

GO6F16/353(2025.01)

GO6F18/23213(2023.01)

GO6N3/045(2023.01)

GO6N3/088(2023.01)

(56)对比文件

CN112597769A,2021.04.02

CN112884010A,2021.06.01

审查员娄贝贝

权利要求书3页说明书7页附图2页

(54)发明名称

基于自适应变分编码器的短文本聚类方法

(57)摘要

CN114625879B基于自适应变分编码器的短文本聚类方法涉及文本聚类技术领域。首先,对短文本使用sentence-Bert的方法进行文本表示;其次,使用自编码器将向量转化为低维特征向量,使用K-means方法提取聚类中心;然后,使用聚类中心作为变分自编码器的期望均值对于输入向量进行预训练,转化为满足以聚类中心为期望均值的分布的特征向量;将特征向量根据K-means算法构建分类器,通过分类后的分布对分类器与编码器的权重进行微调。最后根据微调后的编码器与分类器得到聚类结果。本发明能够很好的处理短文

CN114625879B

1

1K

CN114625879B权利要求书1/3页

2

1.基于自适应变分编码器的短文本聚类算法,其特征在于,步骤如下:

S1数据收集;

S2将文本输入到sentence-Bert中,转化成词向量;

S3使用自编码器对词向量进行预训练,得到降维编码器;

S4使用K-means对降维后的数据进行聚类,得到每一文本的聚类标签和聚类中心;

S5将文本词向量使用变分自编码器进行预训练,使用聚类中心作为期望均值训练编码器网络参数;

S6使用K-means对预训练编码器产生的特征向量做聚类,得到初始的聚类中心;

S7使用聚类中心对向量进行软分配;

S8使用辅助目标分布,从当前的高置信度分配中,学习更新预训练编码器并重新定义聚类质心;

S9重复S7、S8,满足收敛标准或迭代次数时,输出聚类结果;

在步骤S2中,无需对数据进行预处理操作,使用Sentence-BERT对文本进行向量空间表示;

在步骤S3中,使用自动编码器训练文本向量,对于转化为的句向量x?∈R;构建编码器对原始数据进行编码:

z=f。(x)=σ.(Wx+b)∈R#(1)

在使用解码器对原始数据进行解码:

父i=gψ(z)=oa(Wazi-ba)∈Rm#(2)

损失函数为最小化重建误差:

其中x、x1和z分别是输入数据、输出数据和潜在变量,f和g分别表示编码器和解码器的转化函数;σ是激活函数这里选用ReLU(x),W和b是权重和偏差,其中e和d分别表示编码器和解码器;

自动编码器往往通过最小化重建误差,更新网络权重W与偏差b,在完成设定的迭代次数t后,得到一个编码器f。(x):X∈R→Z∈R1;t设置t为10,其中Z是潜在的特征空间,这里的m为上文中提到的输入句向量的维度384维,1为隐层的维度与聚类文本的聚类目标类别k相

同,由于聚类类别k小于输入维度d因此得到降维编码器f。(x);

在步骤S4中,使用K-means作为聚类算法对降维后的文本z;进行聚类;这里采用了欧式距离作为K-means算法的距离度量,K-means的目标是旨在选择集群中的质心μ,能够最小化簇内平方和:

这一步聚类的目的是找到质心μk,和每一条文本对应的文本类别k;通过类别k和质心

CN114625879B权利要求书2/3页

3

μk得到每一文本的期望均值记为μ*={μ,μ2,…,μk};

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档