Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
paper: https://arxiv.org/pdf/2510.06477ICLR 2026一句话概括这篇论文想说明LLM 中的 attention sink 和 compression valley 不是两个孤立现象而是同一个底层机制的两种表现这个机制就是 residual stream 中某些 token尤其 BOS token出现 massive activations。更直白地说模型中间层里某个特殊 token 的激活值突然变得异常大这个异常大的向量一方面让很多 attention head 把注意力吸过去形成attention sink另一方面又让整层 token 表征在奇异值谱上被一个主方向主导形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。它要解决的问题之前有两个现象一直比较奇怪。第一个是attention sink一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉因为模型似乎在“浪费注意力”。第二个是compression valleyLLM 的中间层表征会突然变得很“低维”也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。以前这两个问题大多是分开研究的。本文的核心问题是它们有没有共同原因如果有这个原因能不能被理论证明、被实验验证论文明确说此前 attention sink 已经被和 massive activations 联系起来但 compression valley 还缺少明确因果机制。关键概念怎么理解Massive activations就是 residual stream 中某些 token 的 hidden state 范数特别大远大于其他 token。论文里特别关注 BOS token因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告在多个模型中BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。Compression valley论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X)如果最大奇异值占据了绝大部分能量那么矩阵虽然形式上是高维的但实际信息主要集中在少数方向上熵就会下降表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。Attention sink论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。核心理论为什么 massive activation 会导致压缩论文的理论核心是 Theorem 1假设 (x_0) 是 BOS token 的表示(M|x_0|^2)其他 token 的总能量是 ®其他 token 与 BOS 的方向对齐程度是 (\alpha)那么表示矩阵 (X) 的最大奇异值满足\sigma_1^2 \ge M \alpha R这句话的含义是只要 BOS token 的范数足够大它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵表示矩阵的能量就集中到一个方向熵下降有效维度下降于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系说明 norm ratio 越大压缩越强。([arXiv][1])这个理论比较重要因为它不是只说“我们观察到相关”而是说明如果一个 token 的激活范数压倒其他 token那么谱压缩在数学上几乎不可避免。实验证据论文在多个 decoder-only LLM 上做了实验包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步BOS norm 暴涨时entropy 掉下去sink rate 接近 1。([arXiv][1])论文还看了训练过程发现这三个现象在 Pythia 的训练早期就一起出现大约在 step 1k 左右形成并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])更关键的是消融实验。作者在 massive activations 出现的层把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中原本 entropy 会掉到 0.02 bits但消融后保持在 0.4–0.5 bitssink rate 也保持为 0BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关而是很可能具有因果作用。([arXiv][1])论文提出的三阶段理论Mix–Compress–Refine论文进一步把这个机制上升为一个 LLM 深度计算理论叫Mix–Compress–Refine。第一阶段是Mix早期层大约 0–20% 深度。这一阶段 attention 比较分散模型做广泛的信息混合把不同 token 的上下文初步整合起来。([arXiv][1])第二阶段是Compress中间层大约 20–85% 深度。massive activations 出现BOS token 变成高范数 token导致 representation compression同时 attention sink 出现模型减少继续混合避免过度平滑或无效混合。论文认为这一阶段不是“坏事”而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])第三阶段是Refine后期层大约 85–100% 深度。BOS token 的相对优势下降其他 token 的 norm 上升token norm 逐渐均衡表示重新展开attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention用于做 token-specific refinement。它解释了什么实际现象这篇论文还解释了一个常见矛盾为什么有些任务中间层效果最好而生成任务往往需要最后层。论文发现embedding / classification / retrieval 这类任务更适合中间层因为中间层压缩后高层语义结构更集中线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到embedding-style 任务常在 25–75% 相对深度达到峰值并且比早期/晚期层高 10–20%。([arXiv][1])但generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段尤其 Phase 3才明显提升。也就是说中间层可能已经有较好的语义表征但还不够适合直接生成下一个 token。论文真正成立的贡献我认为它比较扎实的贡献有三个。第一它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里而不是孤立解释。这个统一视角有价值。第二它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。第三它做了有针对性的 ablation说明移除 BOS 上的 massive activation 后compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。需要谨慎的地方这篇论文很有启发但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。另外Mix–Compress–Refine 更像是一个机制假说或解释框架而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说它希望帮助连接 head-level mechanisms 和 representation geometry从而指导更高效、可控的 LLM 设计。

相关新闻

操作系统复习(一)

操作系统复习(一)

操作系统复习(一) 记录一下复习。 操作系统中的不确定性 程序运行结果的不确定性执行顺序的不确定性 操作系统的两个基本特征 并发执行资源共享 分时系统 分时系统(Time-Sharing System)是指:一台计算机同时连接多个终…

2026/7/2 4:53:48阅读更多 →
终极指南:NFD云解析如何一键解析20+网盘直链

终极指南:NFD云解析如何一键解析20+网盘直链

终极指南:NFD云解析如何一键解析20网盘直链 【免费下载链接】netdisk-fast-download 聚合多种主流网盘的直链解析下载服务, 一键解析下载,已支持夸克网盘/uc网盘/蓝奏云/蓝奏优享/小飞机盘/123云盘等. 支持文件夹分享解析. 体验地址: https://lz.qaiu.to…

2026/7/2 4:53:48阅读更多 →
AI集群的Scale-out与Scale-up:解构“万卡互联”与“超节点”的网络架构

AI集群的Scale-out与Scale-up:解构“万卡互联”与“超节点”的网络架构

新华三集团解决方案部 郑上闽本文刊于新华三集团《数字化领航》第34期摘要本文系统阐述了AI算力集群中Scale-up与Scale-out网络技术的发展现状、技术特点及应用场景。分析大语言模型对算力的需求呈指数级增长,推动算力加速卡性能提升及多卡互联技术的演进。Scale-u…

2026/7/2 4:53:48阅读更多 →
完整指南:使用macOS Catalina Patcher让老旧Mac焕发新生

完整指南:使用macOS Catalina Patcher让老旧Mac焕发新生

完整指南:使用macOS Catalina Patcher让老旧Mac焕发新生 【免费下载链接】macos-catalina-patcher macOS Catalina Patcher (http://dosdude1.com/catalina) 项目地址: https://gitcode.com/gh_mirrors/ma/macos-catalina-patcher macOS Catalina Patcher是一…

2026/7/2 6:18:57阅读更多 →
别再当盲盒用了!个微接口深度集成:把群聊碎语洗成 AI 一眼看懂的

别再当盲盒用了!个微接口深度集成:把群聊碎语洗成 AI 一眼看懂的

在搭建大模型本地知识库(RAG)或者做 AI 搜索优化(GEO)的时候,很多朋友都通过个微接口,把私聊、技术群里的海量客户反馈成功接到了自己的后台。但这之后,大家往往会遇到一个非常折磨人的大坑&…

2026/7/2 6:18:57阅读更多 →
拆解Qwen-AgentWorld:阿里原生世界建模,补齐智能体落地的环境交互短板

拆解Qwen-AgentWorld:阿里原生世界建模,补齐智能体落地的环境交互短板

当前AI行业落地重心已从通用对话大模型,转向可自主规划、环境交互、闭环执行的任务型智能体,现有开源方案普遍存在适配差、交互单一、部署调试成本高、插件稳定性弱等问题,制约了产业规模化落地。针对这些痛点,阿里通义千问开源推…

2026/7/2 6:18:57阅读更多 →
导师严选!高效论文写作全流程一键生成论文工具推荐(2026 最新)

导师严选!高效论文写作全流程一键生成论文工具推荐(2026 最新)

2026年论文写作全流程可拆解为文献调研→选题/开题→大纲/初稿→文献综述→降重/去AI味→润色/格式→查重/投稿七大环节,以下工具按环节精准匹配,兼顾中文适配、降重能力、去AI痕迹、学术合规四大核心需求,覆盖免费/付费、通用/垂直场景。一、…

2026/7/2 6:18:57阅读更多 →
上海定位视频公司选哪家不踩雷

上海定位视频公司选哪家不踩雷

一个老甲方的真实心路兄弟们,最近公司要做品牌升级,我负责找定位视频公司,前前后后接触了不下七八家。说实话,这行水真的很深,报价从几万到几百万都有,但最后拿到的片子,能真正把品牌核心讲明白…

2026/7/2 6:18:57阅读更多 →
5个你绝对不知道的明日方舟自动化技巧:MAA智能助手深度解析

5个你绝对不知道的明日方舟自动化技巧:MAA智能助手深度解析

5个你绝对不知道的明日方舟自动化技巧:MAA智能助手深度解析 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手,全日常一键长草!| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目地址: https:…

2026/7/2 6:13:57阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 4:42:14阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/1 5:19:01阅读更多 →
塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧

塞尔达传说旷野之息存档修改器:3分钟掌握海拉鲁世界自由定制技巧 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 想在《塞尔达传说:旷野之息…

2026/7/2 0:03:01阅读更多 →
告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

告别 AccessKey:多云平台 CLI OAuth 免密认证完全指南

在本地开发环境使用云厂商 CLI 时,传统的 AccessKey(AK)方式需要手动创建、下载和保管密钥,不仅繁琐,还存在泄漏风险。其实,主流云平台都已提供基于 OAuth 2.0 的免密认证方案,让开发者可以通过浏览器登录一次性完成授权,CLI 自动管理临时凭证的刷新,兼顾了便利与安全…

2026/7/2 0:03:01阅读更多 →
基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

1. 项目背景与核心价值在嵌入式系统开发领域,高精度定位与导航一直是极具挑战性的技术方向。传统方案往往面临成本、精度和实时性难以兼顾的困境。这个项目通过13DOF(13自由度)传感器组合与PIC32MZ2048EFH100高性能MCU的协同工作,…

2026/7/2 0:03:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/2 0:33:58阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/2 1:32:11阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/2 1:50:13阅读更多 →