- 2
- 0
- 约4.25万字
- 约 12页
- 2025-10-20 发布于海南
- 举报
特别策划·人工智能大模型应用
铁路行业视觉大模型构建及应用
代明睿,李文浩,史维峰,李国华,杨涛存,杜文然
(中国铁道科学研究院集团有限公司电子计算技术研究所,北京100081)
摘要:铁路领域的视觉应用场景往往具有场景复杂多变、有效样本量少等困难,单独设计面
向各场景的小模型耗费大量时间精力且难以满足业务要求,因此构建铁路行业视觉大模型具有
重要意义。研究挖掘视觉大模型的潜在应用场景,提出铁路视觉大模型构建方案,基于UPerNet
网络,利用InternImage代替原主干网络,更好地捕捉图像目标细节,并将Semantic-AwareNor⁃
malization(SAN)与Semantic-AwareWhitening(SAW)注意力机制代替原金字塔池化模块,提
升模型整体鲁棒性,将空间注意力与通道注意力融合代替原解码部分,实现动态地调整对不同
区域的关注度,最后通过半自动化标注构建一批铁路场景数据集。实验结果表明,研究提出的
改进的UPerNet_InternImage铁路行业视觉大模型在提高分割效果的准确性和鲁棒性方面具有一
定潜力,并在面对后续具体场景的分割任务时,收敛速度更快、模型效果更好,为解决铁路视
觉场景中的问题提供了新的思路和方法。
关键词:人工智能;可变形卷积;注意力机制;语义分割;视觉大模型;铁路行业大模型
中图分类号:U29-39;TP18;TP391.4文献标识码:A文章编号:1001-683X(2025)01-0001-12
DOI:10.19549/j.issn.1001-683x.2024.05.11.011
究。2020年,谷歌团队提出VisionTransformer(ViT)[1]
0引言
视觉大模型,证明了Transformer架构在计算机视觉领域
随着预训练技术在深度学习领域的飞速发展,大模的可行性;微软研究团队提出SwinTransformer[2]视觉大
型技术开启人工智能新时代。大模型已成为人工智能新模型,该模型是基于Transformer架构的一种变体,在图
基建领域新兴并快速发展的热点方向之一,相关技术和像分类、目标检测和语义分割等计算机视觉任务中展示
应用在多个工业领域初具成效。在计算机视觉领域,国了出色的性能;OpenAI发布的CLIP[3]大模型通过学习
内外科技巨头积极布局,纷纷开展视觉大模型的技术研图像和文本之间的匹配关系,使得模型不再局限于预先
定义好的有限类别,而是能够处理和理解新的、未曾见
基金项目:中国国家铁路集团有限公司科技研究开发计划项目
过的数据,从而具备零样本学习的能力;2023年4月,
(P2023S001)
第一作者:代明睿(1983—),男,副研究员。MetaAI开源了图像分割模型——SegmentAnythingMod⁃
E-mailel[4](SAM),SAM是提示型模型,其在1100万张图像
CHINARAILWAY2025/01-1-
特别策划铁路行业视觉大模型构建及应用代明睿等
上训练了超过10亿个掩码,具有强大的泛化能力;之后,依赖大量的标注数据,且这些模型无法学习到更普适
MetaAI发布DINOv2
您可能关注的文档
最近下载
- 安徽省芜湖市无为市部分学校2025-2026学年八年级上学期1月期末考试语文试卷(含答案).pdf VIP
- 2025年考研数学《线代》专项训练试卷.docx VIP
- 2025年考研数学三概率统计专项训练冲刺押题试卷(含答案).docx VIP
- 2025 年考研数学三概率论与数理统计专项:易错点练习题.docx VIP
- 2025年考研数学三概率论与数理统计专项强化训练卷.docx VIP
- 2024年4月催化裂化装置操作工(中级)题库+答案(附解析).docx VIP
- 支气管哮喘的护理常规.pptx
- 2025年考研数学三概率论与数理统计专项试题精选.docx VIP
- 2025年考研数学三概率论专项训练试卷(含答案).docx VIP
- 2025考研数学三专项训练冲刺试卷.docx VIP
原创力文档

文档评论(0)