铁路行业视觉大模型构建及应用.pdfVIP

  • 2
  • 0
  • 约4.25万字
  • 约 12页
  • 2025-10-20 发布于海南
  • 举报

特别策划·人工智能大模型应用

铁路行业视觉大模型构建及应用

代明睿,李文浩,史维峰,李国华,杨涛存,杜文然

(中国铁道科学研究院集团有限公司电子计算技术研究所,北京100081)

摘要:铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面

向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有

重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet

网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-AwareNor⁃

malization(SAN)与Semantic-AwareWhitening(SAW)注意力机制代替原金字塔池化模块,提

升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同

区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的

改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一

定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视

觉场景中的问题提供了新的思路和方法。

关键词:人工智能;可变形卷积;注意力机制;语义分割;视觉大模型;铁路行业大模型

中图分类号:U29-39;TP18;TP391.4文献标识码:A文章编号:1001-683X(2025)01-0001-12

DOI:10.19549/j.issn.1001-683x.2024.05.11.011

究。2020年,谷歌团队提出VisionTransformer(ViT)[1]

0引言

视觉大模型,证明了Transformer架构在计算机视觉领域

随着预训练技术在深度学习领域的飞速发展,大模的可行性;微软研究团队提出SwinTransformer[2]视觉大

型技术开启人工智能新时代。大模型已成为人工智能新模型,该模型是基于Transformer架构的一种变体,在图

基建领域新兴并快速发展的热点方向之一,相关技术和像分类、目标检测和语义分割等计算机视觉任务中展示

应用在多个工业领域初具成效。在计算机视觉领域,国了出色的性能;OpenAI发布的CLIP[3]大模型通过学习

内外科技巨头积极布局,纷纷开展视觉大模型的技术研图像和文本之间的匹配关系,使得模型不再局限于预先

定义好的有限类别,而是能够处理和理解新的、未曾见

基金项目:中国国家铁路集团有限公司科技研究开发计划项目

过的数据,从而具备零样本学习的能力;2023年4月,

(P2023S001)

第一作者:代明睿(1983—),男,副研究员。MetaAI开源了图像分割模型——SegmentAnythingMod⁃

E-mailel[4](SAM),SAM是提示型模型,其在1100万张图像

CHINARAILWAY2025/01-1-

特别策划铁路行业视觉大模型构建及应用代明睿等

上训练了超过10亿个掩码,具有强大的泛化能力;之后,依赖大量的标注数据,且这些模型无法学习到更普适

MetaAI发布DINOv2

文档评论(0)

1亿VIP精品文档

相关文档