- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN120123518B(45)授权公告日2025.07.08
(21)申请号202510608156.6
(22)申请日2025.05.13
(65)同一申请的已公布的文献号申请公布号CN120123518A
(43)申请公布日2025.06.10
(73)专利权人西南财经大学
地址611130四川省成都市青羊区光华村
街55号
(72)发明人杨新李艳花欧阳小草张桀
潘超凡任灵飞李婷婷王景凯杨晓龙
(74)专利代理机构成都华风专利事务所(普通合伙)51223
专利代理师吴桂芝
(51)Int.CI.
GO6F16/353(2025.01)
GO6F18/25(2023.01)
GO6F18/241(2023.01)
GO6F18/15(2023.01)
GO6F18/23213(2023.01)
G06Q40/00(2023.01)
GO6F40/30(2020.01)
GO6N5/04(2023.01)
(56)对比文件
杨新等.多粒度开放持续学习关键技术研究.CNKI.2025,1-3.
审查员田志方
权利要求书2页说明书11页附图2页
(54)发明名称
基于大模型的多粒度金融文本噪声开放分类方法
(57)摘要
CN120123518B本发明公开了基于大模型的多粒度金融文本噪声开放分类方法,属于文本噪声分类技术领域,包括:提取金融文本的语义特征;对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性;根据样本在粒球中的位置与粒球的属性,将粒球内样本分类为干净样本、分布内噪声、分布外噪声。通过聚类处理得到多个不同标签的粒球,并计算各粒球的属性,此时每个类别最终由具有相同标签但属性不同的多个粒球表示,能够有效反映类别的多粒度原型和分布范围,提高了表征学习效果。同时,根
CN120123518B
提取金融文本的语义特征
提取金融文本的语义特征
对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性
根据样本在粒球中的位置与粒球的属性,将粒
球内样本分类为干净样本、分布内噪声、分布
外噪声
CN120123518B权利要求书1/2页
2
1.一种基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述方法包括训练步骤:
提取金融文本的语义特征;
对语义特征进行聚类处理,得到多个不同标签的粒球,并计算多个不同标签的粒球的属性,包括容量、纯度、质心和半径;
根据样本在粒球中的位置与粒球的属性,将粒球内样本分类为干净样本、分布内噪声、分布外噪声,包括以下子步骤:
将粒球纯度大于高纯度阈值且粒球容量大于高容量阈值的粒球定义为高质量粒球,对高质量粒球中样本进行噪声分类包括:若样本到质心的距离小于粒球的半径,且样本和粒球具有相同的标签,将样本分类为干净样本;若样本到质心的距离小于粒球的半径,且样本和粒球标签不同,将样本分类为分布内噪声;
将粒球纯度小于低纯度阈值且粒球容量小于低容量阈值的粒球定义为低质量粒球,将低质量粒球内的样本分类为分布外噪声。
2.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述提取金融文本的语义特征,包括:
冻结大模型的底层参数,利用金融文本的训练数据集对大模型的顶层参数进行训练,大模型的顶层包括嵌入层、编码层;
利用完成训练的大模型提取金融文本的语义特征。
3.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述对语义特征进行聚类处理,得到多个不同标签的粒球,包括以下子步骤:
将所有语义特征对应的样本初始化为一个粒球;
计算粒球的属性,根据粒球属性判断是否进行粒球分裂处理,若是,从粒球中随机选择每个不同标签的样本作为新粒球的初始质心,计算所有样本至初始质心的距离,并将样本分配至最近质心所代表的新粒球中,进而得到多个不同标签的粒球。
4.根据权利要求3所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述根据粒球属性判断是否进行粒球分裂处理,包括:
若粒球纯度小于第一纯度阈值,且若粒球容量大于第一容量阈值,则进行粒球分裂。
5.根据权利要求1所述的基于大模型的多粒度金融文本噪声开放分类方法,其特征在于,所述方法还包括将粒球内样本
您可能关注的文档
- CN119962137B 一种流域复杂水工程体系实时调度可视化动态建模方法及系统 (河海大学).docx
- CN119972828B 一种轧机辊缝的偏差检测方法、系统及设备 (常州同泰高导新材料有限公司).docx
- CN119987686B 一种固态硬盘数据处理方法、设备、存储介质及程序产品 (深圳市星耀半导体有限公司).docx
- CN119990724B 一种食品生产信息溯源管理方法及系统 (江西徐味浓食品科技股份有限公司).docx
- CN119990947B 应用于海运拼装箱的智能调度方法及系统 (运去哪物流科技集团有限公司).docx
- CN120010517B 一种基于ai智能的冷链仓库无人机避障和路径规划盘点方法及其系统 (四川参盘供应链科技有限公司).docx
- CN120014054B 一种基于图像识别的无人值守视力检测方法及系统 (上海粲高教育设备有限公司).docx
- CN120026881B 一种同井射流采注装置及使用方法 (山东成林石油工程技术有限公司).docx
- CN120029856B 数据交互的系统及方法、电子设备和存储介质 (苏州元脑智能科技有限公司).docx
- CN120047335B 一种基于多模态融合的mri图像增强方法及系统 (中南大学湘雅二医院).docx
- 2025年新能源地热能行业政策环境及市场前景分析报告.docx
- 加油站作业操作安全管控办法.ppt
- 2025年新能源地热能行业数字化转型与智能化发展.docx
- Unit 2 Expressing yourself(大单元教学设计)英语人教PEP版三年级下册2026.pdf
- Unit 2 More than fun 教学评单元教学设计 英语外研版2025七年级上册.pdf
- Unit 2 Getting along教学评单元教学设计 英语外研版2025八年级上册.pdf
- 2025年新能源地热能行业竞争格局与发展机遇分析.docx
- Unit 3 Make it happen教学评单元教学设计 英语外研版2025八年级上册.pdf
- 2025年新能源地热能行业市场前景与开发策略分析报告.docx
- 全国“红旗杯”班组长大赛知识考试题题库(含答案解析).docx
最近下载
- 2026年上海市松江区中考一模化学试卷含详解.docx VIP
- 2025研读新课标,探寻数学教育新方向——读《小学数学新课程标准》有感.docx
- 如何通过手机号码查询行动轨迹.docx VIP
- SY∕T 5466-2013_钻前工程及井场布置技术要求.pdf VIP
- 2025年二年级上册数学解决问题100道附参考答案(综合题) .pdf VIP
- 横河DCS系统与APC接口的实现方法.docx VIP
- 2025年上海高考英语试卷试题真题及答案详解(精校打印).docx
- 云南农业大学与英国胡弗汉顿大学合作举办土木工程专业本科教育.PDF
- 现代汉语语法.pdf
- 2025部编人教版小学二年级数学常考应用题专项练习(50题含解析).docx
原创力文档


文档评论(0)