CN120123518B 基于大模型的多粒度金融文本噪声开放分类方法 (西南财经大学).docxVIP

CN120123518B 基于大模型的多粒度金融文本噪声开放分类方法 (西南财经大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN120123518B(45)授权公告日2025.07.08

(21)申请号202510608156.6

(22)申请日2025.05.13

(65)同一申请的已公布的文献号申请公布号CN120123518A

(43)申请公布日2025.06.10

(73)专利权人西南财经大学

地址611130四川省成都市青羊区光华村

街55号

(72)发明人杨新李艳花欧阳小草张桀

潘超凡任灵飞李婷婷王景凯杨晓龙

(74)专利代理机构成都华风专利事务所(普通合伙)51223

专利代理师吴桂芝

(51)Int.CI.

GO6F16/353(2025.01)

GO6F18/25(2023.01)

GO6F18/241(2023.01)

GO6F18/15(2023.01)

GO6F18/23213(2023.01)

G06Q40/00(2023.01)

GO6F40/30(2020.01)

GO6N5/04(2023.01)

(56)对比文件

杨新等.多粒度开放持续学习关键技术研究.CNKI.2025,1-3.

审查员田志方

权利要求书2页说明书11页附图2页

(54)发明名称

基于大模型的多粒度金融文本噪声开放分类方法

(57)摘要

CN120123518B本发明公开了基于大模型的多粒度金融文本噪声开放分类方法,属于文本噪声分类技术领域,包括:提取金融文本的语义特征;对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性;根据样本在粒球中的位置与粒球的属性,将粒球内样本分类为干净样本、分布内噪声、分布外噪声。通过聚类处理得到多个不同标签的粒球,并计算各粒球的属性,此时每个类别最终由具有相同标签但属性不同的多个粒球表示,能够有效反映类别的多粒度原型和分布范围,提高了表征学习效果。同时,根

CN120123518B

提取金融文本的语义特征

提取金融文本的语义特征

对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性

根据样本在粒球中的位置与粒球的属性,将粒

球内样本分类为干净样本、分布内噪声、分布

外噪声

CN120123518B权利要求书1/2页

2

1.一种基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述方法包括训练步骤:

提取金融文本的语义特征;

对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性,包括容量、纯度、质心和半径;

根据样本在粒球中的位置与粒球的属性,将粒球内样本分类为干净样本、分布内噪声、分布外噪声,包括以下子步骤:

将粒球纯度大于高纯度阈值且粒球容量大于高容量阈值的粒球定义为高质量粒球,对高质量粒球中样本进行噪声分类包括:若样本到质心的距离小于粒球的半径,且样本和粒球具有相同的标签,将样本分类为干净样本;若样本到质心的距离小于粒球的半径,且样本和粒球标签不同,将样本分类为分布内噪声;

将粒球纯度小于低纯度阈值且粒球容量小于低容量阈值的粒球定义为低质量粒球,将低质量粒球内的样本分类为分布外噪声。

2.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述提取金融文本的语义特征,包括:

冻结大模型的底层参数,利用金融文本的训练数据集对大模型的顶层参数进行训练,大模型的顶层包括嵌入层、编码层;

利用完成训练的大模型提取金融文本的语义特征。

3.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述对语义特征进行聚类处理,得到多个不同标签的粒球,包括以下子步骤:

将所有语义特征对应的样本初始化为一个粒球;

计算粒球的属性,根据粒球属性判断是否进行粒球分裂处理,若是,从粒球中随机选择每个不同标签的样本作为新粒球的初始质心,计算所有样本至初始质心的距离,并将样本分配至最近质心所代表的新粒球中,进而得到多个不同标签的粒球。

4.根据权利要求3所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述根据粒球属性判断是否进行粒球分裂处理,包括:

若粒球纯度小于第一纯度阈值,且若粒球容量大于第一容量阈值,则进行粒球分裂。

5.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述方法还包括将粒球内样本

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档