Agent初创实习-大模型推理加速02
H2O 方法汇报:Heavy-Hitter Oracle 如何动态压缩 KV Cache参考论文:H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models本汇报回答三个问题:H2O 的 pipeline 是怎么实现的?它为什么能推理加速?它和 StreamLLM 的“attention sink + sliding window”有什么区别?1. 先说结论H2O 做的事情很直接:在生成过程中,不保存所有历史 token 的 KV cache,只动态保留“最近 token”和“历史上最常被注意到的 token”。其中,“历史上最常被注意到的 token”就是 Heavy Hitters,也就是 H2。它不是固定保留开头几个 token,也不是固定保留每隔几个 token,而是每一步生成时根据 attention 分数更新 token 的重要性。谁在过去生成过程中反复被后续 token 注意到,谁就更可能留在 KV cache 里。一句话类比:StreamLLM 像固定保留“开头几个主持人 + 最近聊天内容”;H2O 像动态保留“最近聊天内容 + 整场对话里一直被大家反复引用的关键人物”。2. 背景:为什么 KV cache 会成为瓶颈自回归生成时,模型每生成一个新 token,都要看前面所有 token。为了避免每一步都重新计算历史 token 的 key 和 value,推理系统会保存历史 token 的 KV cache。标准做法是:第 1 步:保存 token 1 的 KV 第 2 步:保存 token 1,2 的 KV 第 3 步:保存 token 1,2,3 的 KV ... 第 n 步:保存 token 1...n 的 KV问题是 KV cache 的显存开销会随着:序列长度batch size层数hidden size线性增长。长文本生成和大 batch 推理时,KV cache 可能比你想象中大得多。论文里举例,30B 模型、batch size 128、sequence length 1024 时,KV cache 可以到 180GB。所以 H2O 的目标是:不保存全部 KV,只保留一小部分关键 KV,同时尽量不掉效果。3. H2O 的两个核心观察3.1 Attention 很稀疏虽然 Transformer 是 dense attention,但实际推理时,每个新 token 通常只强烈关注少数历史 token。也就是说:当前 token 生成时,并不是每个历史 token 都同等重要。论文观察到,LLM 推理阶段的 attention matrix 很稀疏,大部分位置的 attention 分数很低。这说明:保留全部 KV 可能是浪费的。3.2 少数 token 长期很重要,也就是 Heavy Hitters论文进一步发现,历史 token 的累计 attention 分数呈现长尾分布。也就是说,少数 token 会反复被后续 token 注意到,它们贡献了大部分注意力价值。这些 token 就叫 Heavy Hitters。举个直观例子:输入:Children laughed and played in the sunny park ...在后续生成中,模型可能经常回看:Childrenplayedpark而一些功能词可能很少被回看。H2O 的直觉是:如果 KV cache 空间有限,与其随机留,不如留“最近 token + 历史高注意力 token”。4. H2O Pipeline下面是 H2O 的整体流程。

相关新闻

LLM模拟啤酒游戏:揭示供应链牛鞭效应与认知分层决策

LLM模拟啤酒游戏:揭示供应链牛鞭效应与认知分层决策

1. 从啤酒游戏到供应链决策:一个经典的认知陷阱如果你在供应链管理、运营或者商业分析领域待过一段时间,大概率听说过“啤酒分销游戏”。这个诞生于上世纪60年代麻省理工学院的模拟游戏,几十年来一直是商学院和企业的经典培训工具。游戏规则很…

2026/6/24 5:03:00阅读更多 →
基于LLM多智能体仿真探究认知异质性对供应链牛鞭效应的影响

基于LLM多智能体仿真探究认知异质性对供应链牛鞭效应的影响

1. 项目缘起:当供应链遇上大语言模型最近在做一个挺有意思的项目,核心是想看看,如果我们用现在最火的大语言模型(LLM)来驱动供应链里的每个决策者(智能体),并且让这些智能体拥有不同…

2026/6/24 5:03:00阅读更多 →
角色驱动型知识代理:从AI聊天到可执行决策协议

角色驱动型知识代理:从AI聊天到可执行决策协议

1. 这不是“AI人格模拟”,而是“角色驱动型知识代理”的一次范式迁移最近刷到“女娲”这个词,很多人第一反应是——又一个蹭热点的AI玩具?点进去发现界面干净得不像话,没广告、没会员入口、没“立即体验”大按钮,只有一…

2026/6/24 5:03:00阅读更多 →
CANN运行时设备到主机同步内存复制示例

CANN运行时设备到主机同步内存复制示例

3_d2h_sync_memory_copy 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。 项目地址: https://gitcode.com/cann/runtime Description This sample demonstrates synchronous memory copy from Device to Host using the aclrtMemcpy API for data t…

2026/6/24 6:18:03阅读更多 →
VibeThinker-3B-GGUF快速入门指南:5分钟部署你的推理AI助手

VibeThinker-3B-GGUF快速入门指南:5分钟部署你的推理AI助手

VibeThinker-3B-GGUF快速入门指南:5分钟部署你的推理AI助手 【免费下载链接】VibeThinker-3B-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/prithivMLmods/VibeThinker-3B-GGUF 想要在本地快速部署一个强大的推理AI助手吗?VibeThinker-3B-…

2026/6/24 6:18:03阅读更多 →
为什么选择Sing-Guard-8b-GGUF?六大安全基准测试表现全面领先

为什么选择Sing-Guard-8b-GGUF?六大安全基准测试表现全面领先

为什么选择Sing-Guard-8b-GGUF?六大安全基准测试表现全面领先 【免费下载链接】Sing-Guard-8b-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Sing-Guard-8b-GGUF Sing-Guard-8b-GGUF是一款策略自适应的多模态安全护栏模型,专为…

2026/6/24 6:18:03阅读更多 →
JoyAI-VL-Interaction-Preview技术架构深度解析:8B规模视觉优先模型的设计哲学

JoyAI-VL-Interaction-Preview技术架构深度解析:8B规模视觉优先模型的设计哲学

JoyAI-VL-Interaction-Preview技术架构深度解析:8B规模视觉优先模型的设计哲学 【免费下载链接】JoyAI-VL-Interaction-Preview 项目地址: https://ai.gitcode.com/jd-opensource/JoyAI-VL-Interaction-Preview JoyAI-VL-Interaction-Preview是京东开源的首…

2026/6/24 6:18:03阅读更多 →
ComfyUI无缝集成:LTX-2.3-22b-IC-LoRA-Ingredients插件安装与配置终极指南

ComfyUI无缝集成:LTX-2.3-22b-IC-LoRA-Ingredients插件安装与配置终极指南

ComfyUI无缝集成:LTX-2.3-22b-IC-LoRA-Ingredients插件安装与配置终极指南 【免费下载链接】LTX-2.3-22b-IC-LoRA-Ingredients 项目地址: https://ai.gitcode.com/hf_mirrors/Lightricks/LTX-2.3-22b-IC-LoRA-Ingredients 想要在ComfyUI中实现视频生成的视觉…

2026/6/24 6:18:03阅读更多 →
950基础矩阵乘法TLA示例

950基础矩阵乘法TLA示例

950 Basic Matmul TLA Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。 项目地址: https://gitcode.com/cann/catlass Note: The community package does not currently support 950 c…

2026/6/24 6:13:03阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 2:12:09阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
TaskJuggler脚本编程入门:用代码实现自动化项目管理

TaskJuggler脚本编程入门:用代码实现自动化项目管理

TaskJuggler脚本编程入门:用代码实现自动化项目管理 【免费下载链接】TaskJuggler TaskJuggler - Project Management beyond Gantt chart drawing 项目地址: https://gitcode.com/gh_mirrors/ta/TaskJuggler TaskJuggler是一款强大的开源项目管理工具&#…

2026/6/24 0:02:41阅读更多 →
终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果

终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果

终极教程:使用angular-mobile-nav实现流畅的移动页面过渡效果 【免费下载链接】angular-mobile-nav An angular navigation service for mobile applications 项目地址: https://gitcode.com/gh_mirrors/an/angular-mobile-nav angular-mobile-nav是一款专为…

2026/6/24 0:02:41阅读更多 →
Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程:无需代码的AI视频创作 【免费下载链接】Wan2.1-Fun-V1.1-1.3B-InP 项目地址: https://ai.gitcode.com/hf_mirrors/PAI/Wan2.1-Fun-V1.1-1.3B-InP Wan2.1-Fun-V1.1-1.3B-InP是一款强大的AI视频创作工具,…

2026/6/24 0:02:41阅读更多 →