铁路行业视觉大模型构建及应用.pdfVIP

铁路行业视觉大模型构建及应用.pdf

特别策划·人工智能大模型应用

铁路行业视觉大模型构建及应用

代明睿，李文浩，史维峰，李国华，杨涛存，杜文然

（中国铁道科学研究院集团有限公司电子计算技术研究所，北京100081）

摘要：铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难，单独设计面

向各场景的小模型耗费大量时间精力且难以满足业务要求，因此构建铁路行业视觉大模型具有

重要意义。研究挖掘视觉大模型的潜在应用场景，提出铁路视觉大模型构建方案，基于UPerNet

网络，利用InternImage代替原主干网络，更好地捕捉图像目标细节，并将Semantic-AwareNor⁃

malization（SAN）与Semantic-AwareWhitening（SAW）注意力机制代替原金字塔池化模块，提

升模型整体鲁棒性，将空间注意力与通道注意力融合代替原解码部分，实现动态地调整对不同

区域的关注度，最后通过半自动化标注构建一批铁路场景数据集。实验结果表明，研究提出的

改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一

定潜力，并在面对后续具体场景的分割任务时，收敛速度更快、模型效果更好，为解决铁路视

觉场景中的问题提供了新的思路和方法。

关键词：人工智能；可变形卷积；注意力机制；语义分割；视觉大模型；铁路行业大模型

中图分类号：U29-39；TP18；TP391.4文献标识码：A文章编号：1001-683X（2025）01-0001-12

DOI：10.19549/j.issn.1001-683x.2024.05.11.011

究。2020年，谷歌团队提出VisionTransformer（ViT）［1］

0引言

视觉大模型，证明了Transformer架构在计算机视觉领域

随着预训练技术在深度学习领域的飞速发展，大模的可行性；微软研究团队提出SwinTransformer［2］视觉大

型技术开启人工智能新时代。大模型已成为人工智能新模型，该模型是基于Transformer架构的一种变体，在图

基建领域新兴并快速发展的热点方向之一，相关技术和像分类、目标检测和语义分割等计算机视觉任务中展示

应用在多个工业领域初具成效。在计算机视觉领域，国了出色的性能；OpenAI发布的CLIP［3］大模型通过学习

内外科技巨头积极布局，纷纷开展视觉大模型的技术研图像和文本之间的匹配关系，使得模型不再局限于预先

定义好的有限类别，而是能够处理和理解新的、未曾见

基金项目：中国国家铁路集团有限公司科技研究开发计划项目

过的数据，从而具备零样本学习的能力；2023年4月，

（P2023S001）

第一作者：代明睿（1983—），男，副研究员。MetaAI开源了图像分割模型——SegmentAnythingMod⁃

E-mailel［4］（SAM），SAM是提示型模型，其在1100万张图像

CHINARAILWAY2025/01-1-

特别策划铁路行业视觉大模型构建及应用代明睿等

上训练了超过10亿个掩码，具有强大的泛化能力；之后，依赖大量的标注数据，且这些模型无法学习到更普适