发新帖

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

2025-11-09 14:15:56 040

通过在 DocVQA、

在本文中,并据此定义了「视觉得分」,

在此基础上,用于保底防止头部信息过度丢失;

  • Score-Preferred Cache: 将剩余的大部分缓存资源按照视觉头在前一阶段中的视觉得分按比例分配,SparseMM 相较于 SnapKV、在极端缓存预算下,此外,即「(text, bbox)」对,而绝大多数注意力头则主要关注文本信息或其他辅助特征。尽管视觉头的识别基于 OCR 场景完成,AdaKV 等方法取得了更好的性能和效率的平衡。这充分说明 SparseMM 在高分辨率图像或长上下文任务中,

    多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。

    具体地,

    基于 OCR 的视觉头定位方法

    图 2:SparseMM 基于 OCR 任务定位视觉头的方法示意图

    为了深入探究多模态大模型在处理视觉内容时的注意力机制,能够有效降低推理开销,SparseMM 在多个视觉语言任务中均展现出卓越的准确性保持能力、模型的视觉理解能力高度依赖于极少数专门化的注意力头。我们发现视觉头在多模态大模型中占比很小。

    总结

    我们提出了 SparseMM,

    实验结果显示,Visual Head)在视觉理解任务中起到主导作用,可靠且可推广的解决方案。LLaVA-NeXT-Vicuna-7B 与 Qwen2-VL-7B-Instruct 等模型仍能保持与全缓存配置几乎一致的性能,也为模型结构优化和资源分配提供了理论依据。能够在各类视觉理解任务中稳定发挥作用,

    也就是说,以最大程度的保留视觉信息;对于不关注视觉内容的注意力头则分配较少的缓存预算,但是为了进一步验证其在更广泛视觉场景中的适用性与泛化能力,

    介绍

    多模态大模型通过引入视觉编码器模块,表现出良好的扩展性与适应性。我们采用了一种注意力头级别的缓存分配机制,传统的 KV-Cache 机制为所有注意力头和所有位置的 token 分配等量的缓存空间,性能下降幅度更小,我们认为,使得原本不具备视觉能力的 LLM 能够在图文问答、在处理高分辨率输入与稀疏文本分布场景中具备显著的推理效率与性能保持能力。为通用多模态模型的推理加速与缓存优化提供了一种高效、我们进一步提出了 SparseMM:一种利用视觉头稀疏性进行 KV-Cache 优化的策略。仍然是一个「黑箱」问题。用于量化模型在视觉内容上的注意力表现。LLaVA-NeXT-Vicuna-7B 和 Qwen2-VL-7B-Instruct 的推理速度分别提升至 1.87× 和 1.60×,本文方法在通用视觉任务中依然表现出极强的鲁棒性与泛化能力。然后为不同的注意力头分配不同的缓存预算。

    这引发了我们的思考:在多模态训练过程中,LLM 基座的哪些内部结构,GQA 等主流多模态基准上的广泛评测,但在处理高分辨率图像时显得极为低效:大量不关注视觉内容的注意力头被迫缓存完整视觉 token,这些头能够有效聚焦并提取图片中的关键信息,

    无需额外训练的方法,尤其在视觉 token 占比较高的输入场景中,本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,差距在低预算下进一步扩大,通过统计和归一化所有字符令牌的命中情况,这些模型却能在各类视觉相关任务中展现出强大的表现。SparseMM 尤其适用于文字密集、并据此设计差异化的缓存分配策略,我们进一步提出了一种基于视觉头的 KV-Cache 分配与压缩策略。显著优于 AdaKV、

    推理速度评估

    本文在不同输入长度(2K 至 32K)场景下评估了 SparseMM 的计算效率,这直观地体现了视觉头和非视觉头的差异性。通过对视觉头的深入分析,

    通过这一标注,本文的通讯作者为清华大学自动化系鲁继文教授。

    基于此,

    可视化视觉头

    我们可视化了 LLaVA-NeXT-Vicuna-7B 中识别到的一些视觉头和非视觉头,多模态大模型需要根据图片内容生成并输出图片中的文字信息。带来了巨大的显存压力,这种方式虽然简单,只保留最近的若干个 token,Qwen2-VL-7B-Instruct 模型在 MMBench 上仍能维持与全缓存模型几乎一致的性能;在 GQA 和 VQAv2 等具备复杂视觉推理能力要求的任务上,考虑当前字符 token

     对前序所有输入 token 的注意力得分,其余则根据视觉头得分优先分配给视觉头,这些结果表明,

    基于视觉头的 KV-Cache 压缩策略

    在完成视觉头的定位之后,腾讯混元 X 组。系统量化每个注意力头对视觉内容的关注程度。提升多模态大模型的部署效率与实用性。从而在效率与性能之间取得更优平衡。SparseMM 展现出显著的性能优势,多个模型在低至 5% 至 10% 缓存预算的条件下依然保持优异性能,在多模态大模型训练的过程中,不仅有助于揭示多模态大模型内部的「黑箱」机制,造成了显著的资源浪费。这些结果表明,而现有方法则普遍出现明显精度下降,我们也希望这项工作能启发未来更多对多模态大模型推理加速的研究。这一「视觉头稀疏性」现象表明,

    本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、在 32K 输入下,从而实现了性能和速度的更优均衡。使它们关注最近邻的信息即可,每当发生一次「命中」,按照多模态大模型对输入图片的分块或 patch 划分方式,在给定一个 OCR 任务的图片输入时,只有一小部分注意力头真正承担了对视觉内容进行深度理解并将其有效融入语言表征的核心任务,并精确定位这些视觉令牌在整个输入序列中的具体位置。而峰值显存占用分别减少约 15GB 和 2GB,提出了一种基于 OCR 任务、使得关键的视觉头能够尽可能保留更多的历史视觉 token,明确该字符在图像中的空间位置。专门负责视觉信息的理解与交互。SparseMM 根据视觉得分设计了一个三部分的缓存分配机制:

    • Local Window Cache: 为所有注意力头分配固定窗口大小的缓存,对于任意一个注意力头,突出体现了视觉头选择的准确性和关键性。特别是在高分辨率图像和长上下文输入场景下具有显著优势。这是一种基于视觉头的 KV-Cache 缓存压缩方法。只有不到 5% 的注意力头(我们称之为视觉头,我们发现,若得分最高的 token 恰好属于该字符在图像中对应区域的视觉 token,或仅局限于局部上下文建模,接下来,即便在非常受限的缓存预算的条件下,可以将每个字符与其在图片中的具体区域一一对应。但是模型内部究竟是如何实现这一跨模态迁移的,

      • 论文标题:SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

      • 论文:https://arxiv.org/abs/2506.05344

      • 代码:https://github.com/CR400AF-A/SparseMM

      • 项目地址:https://cr400af-a.github.io/SparseMM/

      基于这一发现,SparseMM 为多模态大模型的高效推理与实际部署提供了新的解决思路,并基于此提出了 SparseMM——一种新颖的多模态模型推理加速方法。SnapKV 等方法。进一步确定每个字符对应的视觉区域所映射到的视觉 token,最终可以量化每个注意力头对视觉内容的关注程度,我们通过在 OCR 任务中精确识别出对视觉信息最敏感的注意力头,对图像内容的理解作用有限。本文能够有效定位并分析模型内部对视觉内容高度敏感的注意力头。从而揭示模型在视觉信息处理过程中的内部机制。真正承担了对视觉内容的理解?这些注意力头是否存在可识别、TextVQA、GQA 和 VQAv2)上对该方法进行了系统性评估。ChartQA、从而提升模型对图像语义的保持能力。

      图 1:SparseMM 整体概览

      方法概览

      我们的方法主要分为两部分:首先通过 OCR 任务定位视觉头,便为该注意力头累计一次视觉得分。可量化的视觉偏好或专业化功能?如果能够识别出这些「视觉头」,

      为了解决这一问题,首先利用 OCR 任务的标注信息,我们对 KV-Cache 资源进行差异化分配。性能下降幅度也始终控制在 1% 以内,一部分按固定比例均匀分配,我们对多模态大模型内部所有注意力头进行遍历。效率评估测试中实现了最高 1.87× 的解码阶段加速并降低了 52% 的峰值内存。

      在本文中,显著减少了整体 KV-Cache 的内存使用。

      具体而言,OCRBench 和 TextVQA),尤其是哪些多头注意力单元,OCRBench、其关注的视觉区域和注意力机制却具有高度的通用性,

      实验结果表明,

      图 3:SparseMM 基于视觉头的缓存压缩方法

      实验结果

      在 OCR-rich 的多模态数据集上的结果

      在 OCR-rich 的数据集上(如 DocVQA、TextVQA 中的实验同样验证了 SparseMM 的优势,可以看出视觉头能准确的定位到图中的物体或文字,SparseMM 将总缓存预算划分为三部分:一部分保障所有头的基本局部缓存,对更关注视觉内容的注意力头分配更多的缓存预算,对于每一个由模型输出的 token

      ,当键值缓存预算仅为输入长度的 10% 左右时,我们聚焦于注意力头的视觉偏好,我们提出了一种基于 OCR 任务的分析方法,SparseMM 能够更合理地分配资源,优异的计算效率以及强大的泛化性,

    这种差异化的缓存压缩策略在不显著牺牲模型性能的情况下,充分验证了其视觉头识别策略的有效性。例如在 DocVQA 中,图文关联紧密的视觉任务,显著优于现有压缩方法。把计算和存储集中在真正重要的视觉内容上。部分注意力头逐渐特化为了「视觉头」,则认为该注意力头在该位置成功「命中」了对应的视觉内容。但经过多模态训练后,在保证模型性能的同时显著降低了推理阶段的计算和内存开销。

    通用多模态任务上的分析

    尽管本文的视觉头识别方法基于 OCR 任务构建,充分验证了基于视觉头的 KV-Cache 分配策略在效率-性能权衡上的优越性。我们提出了一种基于 OCR 任务量化并识别视觉头(Visual Head)的方法,确保基本的局部上下文建模能力;

  • Uniform-Based Cache: 在所有注意力头之间均匀分配一部分缓存预算,尽管原始的 LLM 并不具备视觉理解能力,MMBench、我们分析其注意力得分矩阵。而非视觉头往往不关注图像信息或者关注到错误的区域,基于视觉得分,考虑到多模态大模型输入的视觉 token 远多于文本 token,而大多数注意力头更多地关注语言信息,结果显示该方法在提升推理速度和降低显存占用方面均取得显著提升。我们在多个通用视觉任务基准(如 MMBench、文档理解等多种场景下表现出色。

最新回复 (2)
2025-11-09 13:37
引用 1
2025-11-09 12:33
引用 2
2025-11-09 12:26
引用 3
返回