- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120277619A(43)申请公布日2025.07.08
(21)申请号202510759252.0
(22)申请日2025.06.09
(71)申请人杭州码全信息科技有限公司
地址311100浙江省杭州市临平区南苑街
道余之城3幢13层
(72)发明人闫鑫怡俞健陈子豪马汉杰许永恩
(74)专利代理机构杭州天勤知识产权代理有限公司33224
专利代理师王琛
(51)Int.CI.
GO6F18/25(2023.01)
GO6N3/045(2023.01)
GO6N3/096(2023.01)
GO6N3/084(2023.01)
权利要求书2页说明书13页附图1页
(54)发明名称
一种海量多源多模态数据融合方法
(57)摘要
CN120277619A本发明公开了一种海量多源多模态数据融合方法,其针对来自不同源头的多种类型数据进行高效融合与处理的技术,实现多源多模态数据的有效整合、利用及无缝集成,提升数据分析的广度和深度。本发明中提出一种基于深度学习的多模态特征提取与融合模型,能够自动学习并提取各模态数据的深层特征,并在模型内部进行高效融合。此外,本发明引入数据质量评估与自适应调整机制,根据数据的质量和分布情况,动态调整数据融合过程中的参数和策略,以确保融合结果的稳定性和可靠性,可广泛应用于大数据分
CN120277619A
000
000O00
Vit模型
o00
Transformer架构
图像文本声音
得到海量
多模态数据的有效巢谷的结
数据清理
标准化归一化
息磨
授篷客
数据准备数据预处理特征提取多模态特征融合特征识别
CN120277619A权利要求书1/2页
2
1.一种海量多源多模态数据融合方法,其特征在于,包括如下步骤:
(1)获取多源且包含丰富多模态信息的海量数据集,并对其中的数据进行预处理;
(2)构建多模态融合模型,包括:
视觉处理模块,基于ViT模型对图像数据进行视觉特征提取;
文本处理模块,基于BERT模型对文本数据进行语义特征提取;
声音处理模块,基于预训练的HuBERT模型对音频数据进行声音特征提取;
多模态融合模块,在JointArchitecture框架下对提取得到的视觉特征、语义特征以及声音特征进行融合;
(3)对预处理后的海量数据集进行数据增强,并利用该数据集对多模态融合模型进行
训练;
(4)利用训练好的多模态融合模型所生成的融合特征完成相应的应用场景任务。
2.根据权利要求1所述的一种海量多源多模态数据融合方法,其特征在于:所述步骤(1)中对数据进行预处理包括数据整合、数据清洗以及标准化,对于文本数据,数据清洗包括缺失值填充、异常值修正、去除停用词以及重复项在内的处理;对于音频数据,数据清洗包括去噪处理;对于图像数据,数据清洗除了去噪还包括图像裁剪、缩放、旋转在内的处理;对于图像数据和音频数据,标准化采用最小-最大归一化处理;对于文本数据,标准化采用词嵌入方法将文本中的词汇转换为固定维度的向量表示。
3.根据权利要求1所述的一种海量多源多模态数据融合方法,其特征在于:所述视觉处理模块首先将输入图像调整到ViT模型所需的固定尺寸,然后将调整后的图像分割成一系列固定大小的小块,每个小块被展平成一个向量作为序列中的一个token,这些token不仅包含了图像的颜色和纹理信息,还通过在序列中的位置保留了空间关系的信息;进而添加一个特殊的分类token在序列的开始位置,同时在序列的末尾添加位置编码或位置嵌入;将上述处理后的token序列输入至由多个编码器层级联的Transformer编码器中,每个编码器层包含自注意力机制和前馈神经网络,自注意力机制在处理每个token时,能够考虑到序列中其他所有token的信息,从而捕捉到图像中复杂的空间依赖关系;前馈神经网络则进一步对自注意力机制的输出进行非线性变换,以增强ViT模型的表达能力;经过Transformer编码器处理后的输出为一个高维的特征向量,该向量编码了输入图像的关键视觉信息。
4.根据权利要求1所述的一种海量多源多模态数据融合方法,其特征在于:所述文本处理模块首先采用WordPiece算法对文本进行分词得到to
您可能关注的文档
- CN120265223A 再通装置及相关联的系统和方法 (英艾里医疗公司).docx
- CN120265526A 一种用于固定容器的系统和方法 (家得宝国际公司).docx
- CN120266443A 联合通信和环境感知的方法 (大陆汽车科技有限公司).docx
- CN120267797A 治疗糖尿病、肝炎和-或炎症性肝病的方法 (康涅狄格大学).docx
- CN120268230A 用于将配体偶联至复合材料的方法 (默克密理博有限公司).docx
- CN120268799A 一种用连铸连轧坯料生产1235合金电缆铝箔的方法 (洛阳龙鼎铝业有限公司).docx
- CN120268800A 一种铸轧8021合金铝箔的制备方法 (洛阳龙鼎铝业有限公司).docx
- CN120269155A 一种特种壳体的激光加工方法及装置 (和超高装(中山)科技有限公司).docx
- CN120269195A Pcb板盲孔加工方法、装置、激光钻孔设备和存储介质 (广州广合科技股份有限公司).docx
- CN120270096A 基于多源传感器数据的客车电池温控智能调控方法及系统 (无锡市宏宇汽车配件制造有限公司).docx
原创力文档


文档评论(0)