hybrid_inference_blog
llama.cpp b9804 编译实录 Qwen3.6-35B-A3B 混合推理方案一篇关于在 GTX 1060 6GB 上驯服 35B 大模型的实战记录2026-06-26 |—背景手里一台旧机器i7-8750H GTX 1060 6GB 32GB RAM。显存只有 6GB却想跑 35B 的 Qwen3.6-35B-A3BMoE 架构35B 总参3B 激活。这不是天方夜谭——混合推理就是答案。旧版 llama.cpp (b9664) 已经能跑但新版 b9804 带来了关键的 KV 缓存卸载控制参数。本文记录从旧版升级到新版、并设计混合推理方案的全过程。一、b9804 编译为什么不自己编译1.1 预编译包的选用llama.cpp 的 GitHub Releases 页面提供了多种预编译包包名内容llama-b9804-bin-win-cpu-x64.zipCPU 版含 16 种 CPU 架构优化 DLLllama-b9804-bin-win-cuda-12.4-x64.zipCUDA 版含 ggml-cuda.dllcudart-llama-bin-win-cuda-12.4-x64.zipCUDA 运行时 DLLcublas, cudart踩坑一开始只下了 CPU 版 CUDA 运行时以为把 CUDA DLL 丢进去就能用。但 CPU 版的llama-server.exe根本没有编译 CUDA 内核——哪怕有ggml-cuda.dll也无法启用 GPU 加速。正确的做法下载llama-b9804-bin-win-cuda-12.4-x64.zip这才是真正带 CUDA 的 build再加上cudart-llama-bin-win-cuda-12.4-x64.zip运行时依赖1.2 为什么不用源码编译环境检查发现❌ 没有 CMake❌ 没有 MSVC 编译器✅ 有 Git在 Windows 上编译 llama.cpp 需要 CMake 支持 CUDA 的编译器MSVC 或 Clang。如果从零搭建工具链耗时且容易踩坑。预编译包是最快捷的选择。如果要自己编译大致流程gitclone https://github.com/ggml-org/llama.cppcdllama.cppmkdirbuildcdbuild cmake..-DGGML_CUDAON-DCMAKE_BUILD_TYPERelease cmake--build.--configRelease1.3 b9804 的新特性对比旧版 b9664b9804 新增了几个对混合推理至关重要的参数参数作用--no-kv-offload禁止 KV 缓存卸载到 GPU让 KV 留在 CPU/硬盘--cache-ram N设置 RAM KV 缓存上限0 纯磁盘 KV--device dev指定设备列表“none” 不卸载任何层--fit自动调整未设置参数适配显存--fit-target每设备预留 margin这些参数让我们能精准控制每部分资源往哪放。二、混合推理方案设计2.1 核心约束GPU 显存: 6 GB (GTX 1060) CPU 线程: 8 核 (i7-8750H, 12 线程) 物理内存: 32 GB 虚拟内存: Windows 分页文件 (SSD) 模型大小: ~20 GB (Q4_K_M 量化后) KV 缓存: 128K ctx × 2 slot ≈ 很多 GB显存只有 6GB而模型 20GB、KV 缓存随便就几十 GB。必须把不同部分放在不同的存储层级。2.2 资源分配策略┌─────────────────────────────────────────────────┐ │ 混合推理资源分配 │ ├─────────────┬─────────────────────┬─────────────┤ │ GPU 显存 │ 系统内存 │ 硬盘 SSD │ ├─────────────┼─────────────────────┼─────────────┤ │ 前 20 层推理 │ mmap 模型页调度 │ KV 缓存 │ │ flash-attn │ MoE 专家层 (CPU) │ slot 持久化 │ │ │ 中间激活值 │ │ ├─────────────┴─────────────────────┴─────────────┤ │ 物理内存不足时 → Windows 自动分页到虚拟内存 │ └─────────────────────────────────────────────────┘GPU 显存 (6GB)前 20 层推理--n-gpu-layers 206GB 放不下整个模型但放前 20 层的权重 计算中间值绰绰有余启用--flash-attn auto减少显存占用系统内存 (32GB)模型权重 via mmap不--no-mmap让 OS 用虚拟内存管理MoE 专家层--n-cpu-moe 999所有专家层在 CPU 计算物理内存够用时模型常驻 RAM不够时 OS 自动换出到分页文件硬盘 (SSD)KV 缓存--cache-ram 0--no-kv-offloadKV 缓存不走显存、不走 RAM直接写到硬盘slot-save-path128K 上下文 × 双槽再大也不爆显存/内存2.3 关键参数详解llama-server.exe ^-mmodel.gguf ^--mmprojmmproj.gguf ^# 视觉能力可选--n-gpu-layers20^# GPU 处理前 20 层--n-cpu-moe999^# MoE 专家全走 CPU--no-warmup ^# 跳过预热快速启动-t8^# 8 线程推理--ctx-size131072^# 128K 上下文-np2^# 2 个并发槽位--cache-type-k q4_0 ^# KV 缓存 4-bit 量化--cache-type-v q4_0 ^ --cache-ram0^# KV 走硬盘--no-kv-offload ^# KV 不卸载到 GPU--slot-save-path slots\^# 槽位持久化路径--flash-attn auto ^# Flash Attention--temp0.30--top-k60^# 采样参数--min-p0.15--repeat-penalty1.122.4 为什么这么配问题方案显存只有 6GB模型 20GB只放 GPU 前 20 层剩下走 CPU mmapKV 缓存随上下文线性增长走硬盘不受 RAM/VRAM 限制物理内存不够用mmap Windows 分页 虚拟内存兜底7×24 长期运行KV 持久化到磁盘断线可恢复MoE 模型显存爆炸MoE 专家全部 CPUGPU 只处理 dense 层三、实测验证3.1 启动测试用--ctx-size 4096快速验证启动日志关键输出I device_info: - CUDA0: NVIDIA GeForce GTX 1060 (6143 MiB, 5199 MiB free) - CPU: Intel(R) Core(TM) i7-8750H (32608 MiB, 22996 MiB free) I srv llama_server: server is listening on http://127.0.0.1:8080CUDA 正常识别模型加载成功无 OOM 报错。3.2 资源占用预估资源占用预估GPU 显存~3-4 GB20 层权重 计算缓冲物理内存16-24 GBmmap 按需驻留虚拟内存动态OS 自动管理硬盘 KV每 token ~40-80 bytes (q4_0)四、经验总结4.1 编译层面的教训CPU 包 ≠ 通用包CPU-only 的 exe 即使有 CUDA DLL 也无法 GPU 加速必须下对应 CUDA 包CUDA 运行时版本匹配系统装的是 CUDA 12.8但预编译包用 12.4 运行时——向下兼容没问题GitHub 下载慢的替代方案不成功的代理、SSL 错误的镜像站……最后用gh-proxy.com走通了4.2 混合推理的核心原则分层存储显存放计算密集型层内存放权重主体硬盘放 KV 缓存资源隔离--no-kv-offload防止 KV 偷偷吃掉显存虚拟内存兜底mmap让 OS 管理物理内存和分页文件的调度量化贯穿模型 Q4_K_M KV q4_0从头到尾不浪费字节4.3 适用场景这套方案特别适合显存有限6-8GB但内存较大32GB的机器需要超长上下文100K-256K且持续运行MoE 架构大模型DeepSeek、Qwen3 MoE 系列附完整启动脚本echo off set SERVERD:\Llama Server\llama.cpp\bin\llama-server.exe set MODELD:\Llama Server\llama.cpp\models\Qwen3.6-35B-A3B-....gguf set MMPROJD:\Llama Server\llama.cpp\models\mmproj-....gguf set SLOTSD:\Llama Server\llama.cpp\slots %SERVER% ^ -m %MODEL% ^ --mmproj %MMPROJ% ^ --host 127.0.0.1 --port 8080 ^ --n-gpu-layers 20 ^ --n-cpu-moe 999 ^ --no-warmup ^ -t 8 ^ --ctx-size 131072 ^ -np 2 ^ --batch-size 512 ^ --ubatch-size 256 ^ --cache-type-k q4_0 ^ --cache-type-v q4_0 ^ --cache-ram 0 ^ --no-kv-offload ^ --slot-save-path %SLOTS% ^ --flash-attn auto ^ --temp 0.30 --top-k 60 --top-p 0.80 --min-p 0.15 --repeat-penalty 1.12 ^ --repeat-last-n 256 ^ --alias Qwen3.6-35B-A3B ^ --timeout 1800 ^ --ui本文基于 GTX 1060 6GB i7-8750H 32GB RAM Windows 10 实测具体参数请根据你的硬件调整--n-gpu-layers和--ctx-size。

相关新闻

AI应用工程师 02

AI应用工程师 02

概述大模型缺陷Agent解决方案只能聊天会执行任务不会调用APITool Calling不会长期记忆Memory不会拆解任务Planning不会纠错Reflection不会跨系统操作Workflow不会自主查资料Agentic RAG不会使用软件Computer Use用户: 分析上个月销售数据Agent:Step1 调SQL工具Step2…

2026/6/27 3:14:23阅读更多 →
3D IC与3D Chiplet

3D IC与3D Chiplet

过去半个多世纪,半导体行业一直仰赖摩尔定律的平面微缩来驱动性能提升——每一代新节点都带来晶体管密度翻倍、性能提升与成本下降。然而,当制程节点推进到5nm以下时,光刻极限、互连瓶颈和热问题使得传统平面微缩的收益逐步递减。与此同时&am…

2026/6/27 3:14:23阅读更多 →
从树根到宇宙:读《第一性原理》——一场关于“回归”的认知革命

从树根到宇宙:读《第一性原理》——一场关于“回归”的认知革命

从树根到宇宙:读《第一性原理》——一场关于“回归”的认知革命 打开李善友的《第一性原理》,扉页上那句话让人过目不忘:“第一性原理,好比树木的根基,没有人会看到繁茂枝干下的树根,但它决定了树的一切。”…

2026/6/27 3:14:23阅读更多 →
ROFL-Player:英雄联盟回放文件解析与多版本兼容的终极解决方案

ROFL-Player:英雄联盟回放文件解析与多版本兼容的终极解决方案

ROFL-Player:英雄联盟回放文件解析与多版本兼容的终极解决方案 【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player 作为一名英雄…

2026/6/27 7:14:39阅读更多 →
最后70天!9月PMP末班车:报名即将开启,新旧考纲差距一张表看懂,现在动手还不晚

最后70天!9月PMP末班车:报名即将开启,新旧考纲差距一张表看懂,现在动手还不晚

只剩70天了,别再纠结“来不来得及”这种问题了。现在就开始,完全来得及。 先划重点:2026年9月12日,是中国大陆PMP旧考纲的谢幕场。12月5日起将全面启用新考纲,海外及港澳台地区7月9日已先行切换。新旧考纲拿到的证书一…

2026/6/27 7:14:39阅读更多 →
3分钟掌握pk3DS:打造属于你的宝可梦3DS游戏编辑器

3分钟掌握pk3DS:打造属于你的宝可梦3DS游戏编辑器

3分钟掌握pk3DS:打造属于你的宝可梦3DS游戏编辑器 【免费下载链接】pk3DS Pokmon (3DS) ROM Editor & Randomizer 项目地址: https://gitcode.com/gh_mirrors/pk/pk3DS 还在为重复的宝可梦冒险感到乏味吗?想要创造独一无二的游戏体验&#xf…

2026/6/27 7:14:39阅读更多 →
Hermes + 阿里 DashScope 配置指南

Hermes + 阿里 DashScope 配置指南

本文档介绍如何将 Hermes Agent 配置使用阿里云 DashScope(通义千问)作为推理后端,包括 Credential Pool(凭证池)多 Key 轮询配置。 目录 环境要求配置步骤Credential Pool 多 Key 配置Coding Plan 配置国内版 vs 国际…

2026/6/27 7:14:39阅读更多 →
一键生成出入库报表,这款仓库管理软件堪称效率神器!

一键生成出入库报表,这款仓库管理软件堪称效率神器!

月底盘点对账,总是熬夜加班到崩溃?面对堆积如山的出入库单据,手工统计不仅耗时费力,还极其容易出错,导致老板常常看着一堆糊涂账干瞪眼。在数字化时代,告别低效管理的秘诀在于选对智能化工具!本…

2026/6/27 7:14:39阅读更多 →
DOPE-PEG-CY3 荧光磷脂不同 PEG 分子量荧光亮度与抗团聚性能差异说明

DOPE-PEG-CY3 荧光磷脂不同 PEG 分子量荧光亮度与抗团聚性能差异说明

一、材料基础结构DOPE-PEG-CY3 为不饱和油酰磷脂荧光标记脂质,三段结构:DOPE 疏水脂质段:带有不饱和脂肪酸双烷基链,兼具优良膜嵌入能力,可高效融合细胞膜磷脂双层结构。PEG 亲水间隔链:包裹于纳米载体表层…

2026/6/27 7:09:39阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 5:46:02阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声&#xff1a;Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:03阅读更多 →
Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider&#xff1a;3分钟AI智能分层&#xff0c;彻底告别手动抠图时代 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作烦…

2026/6/27 0:04:03阅读更多 →
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

1. 项目概述&#xff1a;为什么X-Frame-Options是Web安全的“防盗门”&#xff1f;最近在排查一个老项目的安全审计报告时&#xff0c;又被提到了“点击劫持”风险&#xff0c;矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了&#xff0c;很多开发团队&#xff0c;尤…

2026/6/27 0:04:03阅读更多 →