DeepSeek-OCR 2:视觉因果流(中文).docx

DeepSeek-OCR2:视觉因果流

魏浩然,孙耀峰,李玉坤

DeepSeek-AI

摘要

我们提出DeepSeek-OCR2来研究一种新的编码器DeepEncoderV2的可行性,该编码器能够根据图像语义动态地重新排序视觉标记。传统的视觉语言模型(VLM)总是以严格的光栅扫描顺序(左上到右下)处理视觉标记,并在输入LLM时进行固定的位置编码。然而,这与人类视觉感知相矛盾,人类视觉感知遵循由固有逻辑结构驱动的灵活但语义一致的扫描模式。特别是对于具有复杂布局的图像,人类视觉表现出因果信息顺序处理。受这种认知机制的启发,DeepEncoderV2旨在赋予编码器因果推理能力,使其能够在

文档评论(0)

1亿VIP精品文档

相关文档