Agent初创实习-大模型推理加速02-拓冰网站优化

H2O 方法汇报：Heavy-Hitter Oracle 如何动态压缩 KV Cache参考论文：H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models本汇报回答三个问题：H2O 的 pipeline 是怎么实现的？它为什么能推理加速？它和 StreamLLM 的“attention sink + sliding window”有什么区别？1. 先说结论H2O 做的事情很直接：在生成过程中，不保存所有历史 token 的 KV cache，只动态保留“最近 token”和“历史上最常被注意到的 token”。其中，“历史上最常被注意到的 token”就是 Heavy Hitters，也就是 H2。它不是固定保留开头几个 token，也不是固定保留每隔几个 token，而是每一步生成时根据 attention 分数更新 token 的重要性。谁在过去生成过程中反复被后续 token 注意到，谁就更可能留在 KV cache 里。一句话类比：StreamLLM 像固定保留“开头几个主持人 + 最近聊天内容”；H2O 像动态保留“最近聊天内容 + 整场对话里一直被大家反复引用的关键人物”。2. 背景：为什么 KV cache 会成为瓶颈自回归生成时，模型每生成一个新 token，都要看前面所有 token。为了避免每一步都重新计算历史 token 的 key 和 value，推理系统会保存历史 token 的 KV cache。标准做法是：第 1 步：保存 token 1 的 KV 第 2 步：保存 token 1,2 的 KV 第 3 步：保存 token 1,2,3 的 KV ... 第 n 步：保存 token 1...n 的 KV问题是 KV cache 的显存开销会随着：序列长度batch size层数hidden size线性增长。长文本生成和大 batch 推理时，KV cache 可能比你想象中大得多。论文里举例，30B 模型、batch size 128、sequence length 1024 时，KV cache 可以到 180GB。所以 H2O 的目标是：不保存全部 KV，只保留一小部分关键 KV，同时尽量不掉效果。3. H2O 的两个核心观察3.1 Attention 很稀疏虽然 Transformer 是 dense attention，但实际推理时，每个新 token 通常只强烈关注少数历史 token。也就是说：当前 token 生成时，并不是每个历史 token 都同等重要。论文观察到，LLM 推理阶段的 attention matrix 很稀疏，大部分位置的 attention 分数很低。这说明：保留全部 KV 可能是浪费的。3.2 少数 token 长期很重要，也就是 Heavy Hitters论文进一步发现，历史 token 的累计 attention 分数呈现长尾分布。也就是说，少数 token 会反复被后续 token 注意到，它们贡献了大部分注意力价值。这些 token 就叫 Heavy Hitters。举个直观例子：输入：Children laughed and played in the sunny park ...在后续生成中，模型可能经常回看：Childrenplayedpark而一些功能词可能很少被回看。H2O 的直觉是：如果 KV cache 空间有限，与其随机留，不如留“最近 token + 历史高注意力 token”。4. H2O Pipeline下面是 H2O 的整体流程。

相关新闻

LLM模拟啤酒游戏：揭示供应链牛鞭效应与认知分层决策

1. 从啤酒游戏到供应链决策：一个经典的认知陷阱如果你在供应链管理、运营或者商业分析领域待过一段时间，大概率听说过“啤酒分销游戏”。这个诞生于上世纪60年代麻省理工学院的模拟游戏，几十年来一直是商学院和企业的经典培训工具。游戏规则很…

2026/6/24 5:03:00阅读更多 →

基于LLM多智能体仿真探究认知异质性对供应链牛鞭效应的影响

1. 项目缘起：当供应链遇上大语言模型最近在做一个挺有意思的项目，核心是想看看，如果我们用现在最火的大语言模型（LLM）来驱动供应链里的每个决策者（智能体），并且让这些智能体拥有不同…

2026/6/24 5:03:00阅读更多 →

角色驱动型知识代理：从AI聊天到可执行决策协议

1. 这不是“AI人格模拟”，而是“角色驱动型知识代理”的一次范式迁移最近刷到“女娲”这个词，很多人第一反应是——又一个蹭热点的AI玩具？点进去发现界面干净得不像话，没广告、没会员入口、没“立即体验”大按钮，只有一…

2026/6/24 5:03:00阅读更多 →

CANN运行时设备到主机同步内存复制示例

3_d2h_sync_memory_copy 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime Description This sample demonstrates synchronous memory copy from Device to Host using the aclrtMemcpy API for data t…

2026/6/24 6:18:03阅读更多 →

VibeThinker-3B-GGUF快速入门指南：5分钟部署你的推理AI助手

VibeThinker-3B-GGUF快速入门指南：5分钟部署你的推理AI助手【免费下载链接】VibeThinker-3B-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/prithivMLmods/VibeThinker-3B-GGUF 想要在本地快速部署一个强大的推理AI助手吗？VibeThinker-3B-…

2026/6/24 6:18:03阅读更多 →

为什么选择Sing-Guard-8b-GGUF？六大安全基准测试表现全面领先

为什么选择Sing-Guard-8b-GGUF？六大安全基准测试表现全面领先【免费下载链接】Sing-Guard-8b-GGUF 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Sing-Guard-8b-GGUF Sing-Guard-8b-GGUF是一款策略自适应的多模态安全护栏模型，专为…

2026/6/24 6:18:03阅读更多 →

JoyAI-VL-Interaction-Preview技术架构深度解析：8B规模视觉优先模型的设计哲学

JoyAI-VL-Interaction-Preview技术架构深度解析：8B规模视觉优先模型的设计哲学【免费下载链接】JoyAI-VL-Interaction-Preview 项目地址: https://ai.gitcode.com/jd-opensource/JoyAI-VL-Interaction-Preview JoyAI-VL-Interaction-Preview是京东开源的首…

2026/6/24 6:18:03阅读更多 →

ComfyUI无缝集成：LTX-2.3-22b-IC-LoRA-Ingredients插件安装与配置终极指南

ComfyUI无缝集成：LTX-2.3-22b-IC-LoRA-Ingredients插件安装与配置终极指南【免费下载链接】LTX-2.3-22b-IC-LoRA-Ingredients 项目地址: https://ai.gitcode.com/hf_mirrors/Lightricks/LTX-2.3-22b-IC-LoRA-Ingredients 想要在ComfyUI中实现视频生成的视觉…

2026/6/24 6:18:03阅读更多 →

950基础矩阵乘法TLA示例

950 Basic Matmul TLA Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass Note: The community package does not currently support 950 c…

2026/6/24 6:13:03阅读更多 →

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM，WorkFlow，Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1）LLM2）Prompt3）Me…

2026/6/23 7:04:52阅读更多 →

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 2:12:09阅读更多 →

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/23 5:55:37阅读更多 →

TaskJuggler脚本编程入门：用代码实现自动化项目管理

TaskJuggler脚本编程入门：用代码实现自动化项目管理【免费下载链接】TaskJuggler TaskJuggler - Project Management beyond Gantt chart drawing 项目地址: https://gitcode.com/gh_mirrors/ta/TaskJuggler TaskJuggler是一款强大的开源项目管理工具&#…

2026/6/24 0:02:41阅读更多 →

终极教程：使用angular-mobile-nav实现流畅的移动页面过渡效果

终极教程：使用angular-mobile-nav实现流畅的移动页面过渡效果【免费下载链接】angular-mobile-nav An angular navigation service for mobile applications 项目地址: https://gitcode.com/gh_mirrors/an/angular-mobile-nav angular-mobile-nav是一款专为…

2026/6/24 0:02:41阅读更多 →

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程：无需代码的AI视频创作

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程：无需代码的AI视频创作【免费下载链接】Wan2.1-Fun-V1.1-1.3B-InP 项目地址: https://ai.gitcode.com/hf_mirrors/PAI/Wan2.1-Fun-V1.1-1.3B-InP Wan2.1-Fun-V1.1-1.3B-InP是一款强大的AI视频创作工具，…

2026/6/24 0:02:41阅读更多 →