推理部署框架llama.cpp与Ollama使用指北
文将对当前常见的LLM推理框架进行简要梳理并聚焦于本地推理场景中极具代表性的llama.cpp与Ollama介绍它们的核心原理及基础用法。另一广泛使用的生产级框架vLLM作为面向高吞吐环境的推理方案内容相对独立且较为丰富将留待下一篇文章专门展开。目录1 推理框架概述2 llama.cpp快速入门2.1 部署准备2.1.1 环境准备2.1.2 模型准备2.2 llama-cli使用2.2.1 参数说明2.2.2 推理与交互2.3 llama-server使用3 Ollama快速入门3.1 环境准备3.2 Ollama基本使用3.2.1 核心命令3.2.2 交互模式常用命令3.2.3 Python SDK调用模型3.3 Ollama自定义使用3.3.1 Modelfile配置3.3.2 导入自有模型3.3.3 Ollama API3.3.4 Ollama聊天界面4 参考1 推理框架概述常见LLM推理框架近年来随着LLM的持续发展推理部署框架在模型落地中的作用日益重要。作为连接模型能力与实际应用场景的关键基础设施其设计与性能直接影响部署效率与最终效果。目前业界已涌现出多种具有代表性的推理框架常见的包括以下几类llama.cppllama.cpp是一个由开源社区维护的轻量级LLM推理框架采用纯C/C实现并结合多种量化技术具有很强的硬件兼容性和较低的资源占用。它支持CPU与GPU混合推理尤其适合边缘设备、普通电脑以及需要离线运行模型的个人开发者。OllamaOllama是一个面向本地部署的轻量级推理平台主要在llama.cpp推理能力之上提供统一的运行与管理接口致力于降低LLM本地运行的门槛。它支持一键下载、运行和管理多种主流模型适合个人开发者、研究人员以及本地快速验证场景。vLLMvLLM是由加州大学伯克利分校团队开发的开源推理框架主要解决LLM服务中的显存占用和吞吐量问题。其核心创新包括PagedAttention分页注意力和Continuous Batching连续批处理前者借鉴操作系统的分页机制提升显存利用率后者通过动态调度请求批次显著提升推理效率。vLLM目前已成为生产环境中应用较广的推理引擎之一。SGLangSGLang由加州大学伯克利分校团队开发是一款专注于提升推理吞吐量、降低响应延迟的推理引擎同时提供更灵活的编程接口。其核心技术RadixAttention通过高效的前缀缓存机制大幅提升共享上下文场景下的推理效率在结构化输出和复杂工作流等高并发任务中表现突出。TensorRT-LLMTensorRT-LLM是NVIDIA推出的官方推理引擎基于TensorRT深度优化专为LLM设计。它通过算子融合、模型量化和分布式推理等技术能够充分释放NVIDIA GPU性能是追求高吞吐和低延迟场景的重要选择。XInferenceXInference是一款高性能分布式推理框架专注于简化各类AI模型的部署、运行和集成。它支持多种模型类型和异构硬件具备较强的扩展能力适合大规模分布式部署场景。LightLLMLightLLM是一个基于Python的轻量级LLM推理与服务框架以架构简洁、扩展性强和推理速度快为特点。其模块化设计提供了较高的定制灵活性适合需要深入定制推理流程的开发者。学习路线建议上述框架覆盖从本地推理到分布式服务的多种技术路线但全部掌握并不现实。如果希望以最低学习成本入门LLM推理部署并理解核心机制通常只需沿一条主线学习即可。本地推理阶段可选择llama.cpp或Ollama用于理解模型在单机环境中的加载与运行方式建立对模型如何运行的基础认知。其中llama.cpp偏底层实现强调推理细节与资源控制Ollama在其基础上做了封装使用更简单直观。二者本质属于同一层级工具选择其一即可。完成本地推理的理解后再学习vLLM可进一步掌握推理服务化的核心机制如并发请求处理与显存优化从而形成从单机运行到多用户服务的完整认知闭环。其余框架更多面向特定工程优化或场景需求不影响对核心原理的理解。详细的框架介绍可参阅 一文梳理主流大模型推理部署框架。基于这一路径本文将重点介绍llama.cpp和Ollama的核心使用方式vLLM将在下一篇文章中结合服务化部署进行讲解。2 llama.cpp快速入门本部分将展示如何使用llama.cpp在本地机器上运行模型默认在Linux环境下使用C编译器进行本地编译Windows用户请参考llama.cpp仓库的说明llama.cpp。2.1 部署准备2.1.1 环境准备本地编译需要安装C编译器和构建工具。可在Linux终端中输入以下命令检查是否已安装cc --version cmake --version若已安装终端将显示配置信息即可直接使用。若出现错误提示则需先安装相关工具Ubuntu下的安装命令如下sudo apt install build-essential gcc cmake完成环境准备后先克隆仓库并进入目录git clone https://github.com/ggml-org/llama.cpp cd llama.cpp然后使用CMake进行编译。第一条命令会检查本地环境确定要包含的后端和功能第二条命令实际执行编译不加-j 16也可以正常编译加上则可利用CPU多核并行加速使用纯CPU编译命令如下cmake -B build cmake --build build --config Release -j 16如果需要启用NVIDIA GPU加速可以在配置阶段添加CUDA选项cmake -B build -DGGML_CUDAON cmake --build build --config Release -j 16编译完成后运行程序位于llama.cpp仓库的build/bin/目录中。2.1.2 模型准备使用llama.cpp进行本地推理本质上遵循一个相对固定的流程首先准备运行环境与可执行程序其次获取GGUF格式的模型文件最后根据需求选择运行方式进行推理。其中llama.cpp提供llama-cli用于本地命令行交互同时提供llama-server用于服务化部署与API调用。llama.cpp仅支持GGUF格式模型因此在使用前必须确认模型格式是否符合要求。GGUF是llama.cpp定义的统一模型格式用于以轻量化方式将模型权重、配置以及tokenizer等信息打包为单一文件。如果当前模型已经是GGUF格式可以直接使用如果来源是Hugging Face如safetensors或bin格式则需通过llama.cpp仓库提供的转换工具完成格式转换python convert_hf_to_gguf.py可在Hugging Face、ModelScope或Unsloth搜索开源模型的GGUF版本。虽然Unsloth并非官方模型发布方但其提供的量化GGUF模型在实际使用中兼容性较好、量化效果好因此较为常见。关于Unsloth框架的进一步介绍可阅读大模型学习5-高效微调框架Unsloth使用指北。以Unsloth发布的Qwen系列为例可通过搜索以.GGUF结尾的仓库名查找所需模型。如文件名Qwen3.5-0.8B-Q4_K_M.gguf中0.8B表示模型参数规模约为8亿适合入门级硬件Q4_K_M表示4位量化中的Medium级别在模型体积与输出质量之间取得平衡是较为常用的量化选择。该模型整体体积约500–600MB因此即使在普通CPU环境下也可以较为流畅地运行。可以通过ModelScope下载GGUF模型至llama.cpp根目录下的model文件夹modelscope download --model unsloth/Qwen3.5-0.8B-GGUF Qwen3.5-0.8B-Q4_K_M.gguf --local_dir ./model上述命令使用的是unsloth提供的Q4_K_M量化版本。量化技术让LLM能够在普通电脑上运行在尽量保持精度的前提下显著降低显存占用。不同量化版本在精度与资源消耗上有所取舍常见版本如下量化版本精度损失适用场景UD-Q4_K_XL极小精度损失极小整体平衡较好Q4_K_M小经典4-bit量化兼容性最好UD-Q2_K_XL可接受极致节省显存适合低显存设备Q8_0几乎无精度最高资源消耗较高2.2 llama-cli使用llama-cli是llama.cpp提供的命令行交互工具用于直接与LLM进行推理与对话。在完成llama.cpp编译后可在其构建目录中直接调用llama-cli运行模型。若想快速了解基本用法可参考llama.cpp使用指南和Qwen3.5本地部署指南。2.2.1 参数说明从整体设计来看llama-cli的参数体系可以划分为三大类模型与上下文控制、生成策略控制、会话与模板系统。这一划分对应了模型运行的三个核心阶段加载什么模型、如何生成内容、以及如何组织对话结构。1️⃣模型与上下文控制这一类参数决定模型的运行资源分配与上下文能力是影响性能与显存占用的核心部分。-m model.gguf -hf repo -ngl N -t threads -c ctx -b batch --no-context-shift参数说明-m字符串本地GGUF格式模型文件的路径-hf字符串Hugging Face仓库名称-ngl整数加载到GPU的模型层数。值越大GPU占用越高、推理越快设为0表示纯CPU运行-t整数CPU线程数。值越大CPU推理越快默认为物理核心数-c整数上下文窗口长度。值越大模型能记住的对话越多但显存消耗也越大-b整数单次批处理的token数量。值越大吞吐量越高但显存占用也越大--no-context-shift布尔标志禁用上下文滚动移位超限时直接截断实践建议显存不足时优先降低-c或-b通常比降低-ngl更稳定。2️⃣生成控制采样策略这一组参数直接影响输出质量、随机性与稳定性本质上控制模型如何说话。-n tokens --temp float --top-k int --top-p float --repeat-penalty float --presence-penalty float --frequency-penalty float参数说明-n整数最多生成的token数量。值越大回复越长--temp浮点数0~2控制生成的随机性。值越大输出越具创造性值越小输出越保守确定--top-k整数仅从概率最高的K个token中采样。值越小输出越集中1等价于贪婪采样--top-p浮点数0~1仅从累计概率达到P的token中采样。值越小截断越明显--repeat-penalty浮点数值越大越能抑制重复内容--presence-penalty浮点数值越大越鼓励模型讨论新话题--frequency-penalty浮点数值越大越能减少相同词的反复出现常见经验组合稳定输出temp0.2~0.5平衡模式top-k20~50,top-p0.9~0.95创意模式提高temp并放宽top-p3️⃣会话与模板系统这一部分决定模型如何理解对话格式与上下文结构本质上是在规定输入内容的组织方式构造成模型可解析的指令序列。-p prompt --system-prompt text --reverse-prompt text --jinja --chat-template-file file --reasoning off --color --log-disable参数说明-p字符串初始提示词--system-prompt字符串设置系统级前置指令--reverse-prompt字符串遇到该内容时停止生成用于控制多轮对话--jinja布尔标志启用Jinja聊天模板--chat-template-file字符串自定义聊天模板文件的路径--reasoning off最新版关闭模型的思考输出。旧版需用--chat-template-kwargs {enable_thinking: false} --jinja--color布尔标志启用彩色输出--log-disable布尔标志关闭日志输出其中--jinja对于LLM尤为重要例如Qwen、Llama3等都依赖结构化的聊天模板chat template否则容易出现格式错乱。2.2.2 推理与交互下面通过一系列示例逐步演示如何使用llama-cli。1️⃣简单推理测试最基础用法是直接输入prompt然后生成回答结果./build/bin/llama-cli -m ./model/Qwen3.5-0.8B-Q4_K_M.gguf -p hello world -n 100-m指定本地模型文件-p初始提示词-n 100最多生成100个token直接运行上述命令会进入交互界面按CtrlC退出。模型加载方式有两种使用-hf Qwen/model表示从Hugging Face Hub获取模型文件使用-m xxx.gguf表示从本地路径加载模型文件实际使用过程中若出现异常可通过调整生成及上下文相关参数进行优化调试。以下仅列举部分示例QwQ-32B高效运行教程提供了更详细的解决方案长文本重复可增加--repeat-penalty 1.2~1.5上下文遗忘由-c决定例如-c 4096表示模型的记忆长度最多引用前面4096个token的历史信息。生成失控降低temp或减少top-p。2️⃣启用GPU加速在前一步的基础上增加-ngl 99参数表示在llama.cpp中尽可能将模型层上限99层加载到GPU上以加速推理。该方式需要NVIDIA显卡及CUDA支持未完全加载的层会自动回退到CPU运行./build/bin/llama-cli -m ./model/Qwen3.5-0.8B-Q4_K_M.gguf -p 你好 -n 20 -ngl 99如果运行速度明显快于纯CPU模式通常说明GPU加速已经生效。3️⃣启用聊天模板关键步骤LLM必须正确解析chat template按官方格式组织system/user/assistant结构以使用对应的聊天模板对对话进行格式化同时需要启用Jinja支持./build/bin/llama-cli -m ./model/Qwen3.5-0.8B-Q4_K_M.gguf -p 你好 -n 20 -ngl 99 --jinja关于思考模式与非思考模式的切换通过参数控制的方式始终可用但聊天模板中实现的硬开关在llama.cpp中并未直接暴露。一个可行的快速方案是使用自定义chat template并通过--chat-template-file参数将enable_thinking固定为false。在较新版本中则需要使用reasoning off来关闭推理模式。4️⃣完整交互式对话配置以下命令配置了适合多轮交互的完整启动命令适用于稳定多轮对话./build/bin/llama-cli -m ./model/Qwen3.5-0.8B-Q4_K_M.gguf --jinja --color auto -ngl 99 --temp 0.6 --top-k 20 --top-p 0.95 -c 4096 -n 2048 --no-context-shift --chat-template-kwargs {enable_thinking: false} --system-prompt 你是一个才华横溢的诗人所有回答都必须用诗歌的形式或充满诗意的语言来表达。参数作用拆解如下--color auto自动开启彩色输出区分用户输入和模型回复--temp 0.6设置温度参数为0.6控制回复的随机性0保守/1创意--top-k 20采样时只从概率最高的20个词中选择--top-p 0.95核采样只考虑累积概率达95%的候选词-c 4096设置上下文窗口大小为4096个token模型的记忆长度-n 2048限制单次回复最大生成2048个token--no-context-shift禁用上下文偏移功能保持精确的注意力计算--chat-template-kwargs关闭模型的思考过程显示如无效请改用--reasoning off--system-prompt设定模型的全局行为和角色执行后将进入完整交互模式可进行多轮连续对话实现类似ChatGPT的使用体验。2.3 llama-server使用llama-server是llama.cpp提供的HTTP服务端组件它将llama.cpp从命令行工具扩展为一个常驻后台运行的推理服务从而对外提供标准化的LLM REST API接口以及一个简洁的Web交互界面。整体体验类似于常见的LLM网页聊天界面可直接通过浏览器进行对话交互。与llama-cli不同llama-server采用服务化架构运行启动后会常驻内存持续接收客户端请求支持并发访问与多轮对话管理并可在API层面进行统一的上下文管理与参数控制是构建本地或私有化LLM服务的核心组件之一。启动示例如下./build/bin/llama-server -m model/Qwen3.5-0.8B-Q4_K_M.gguf --jinja -ngl 99 --temp 0.6 --top-k 20 --top-p 0.95 -c 4096 -n 2048 --no-context-shift该命令启动后模型将以服务形式运行并加载指定GGUF模型同时启用Jinja聊天模板与标准采样策略配置。启动成功后服务默认监听以下地址Web界面http://localhost:8080/OpenAI兼容APIhttp://localhost:8080/v1/其中Web界面用于可视化对话测试与调试/v1/接口提供与OpenAI API风格兼容的调用方式便于接入现有应用或框架对于端口与网络配置可通过以下参数调整服务监听行为--host绑定IP地址如0.0.0.0用于局域网访问--port指定端口号例如将服务绑定到所有网络接口0.0.0.0并监听8081端口使其可在局域网或远程设备上访问--host 0.0.0.0 --port 80813 Ollama快速入门3.1 环境准备Ollama是基于llama.cpp构建的LLM推理框架集成了推理、量化与硬件加速能力。用户通过简单命令即可下载、运行和管理模型支持文本生成、翻译、代码编写等任务。相较于侧重底层推理与硬件优化的llama.cppOllama更强调开箱即用适用于快速原型开发、本地AI助手和轻量级部署。支持Windows、Linux、macOS和Docker无GPU也可运行模型有GPU时推理性能更高。Ollama功能丰富本节仅介绍基础用法更多内容请参考官方文档Ollama官方文档。官方下载地址Ollama下载。进入官方下载页面后可根据所使用的操作系统选择对应安装包。下面以Linux环境为例说明安装流程。在需要长期运行模型或进行开发测试时Linux通常是更常见的部署环境。在终端中执行以下安装脚本curl -fsSL https://ollama.com/install.sh | bash部分环境可能需要追加sudo权限。如果下载速度较慢可参考这篇文章中的方法进行优化解决Ollama官方下载过慢的问题。安装完成后可通过以下命令检查版本信息ollama --version若成功输出版本号则表明安装已完成。通常情况下安装脚本会自动完成Ollama服务注册并启动。若需要手动管理服务可使用sudo systemctl status ollama # 查看服务状态 sudo systemctl start ollama # 启动服务 sudo systemctl enable ollama # 设置开机自启3.2 Ollama基本使用3.2.1 核心命令Ollama能够实现开箱即用核心原因在于其内置官方模型仓库Ollama模型库。所有模型均统一托管于远程仓库中。当运行某个模型时系统会自动检查本地是否存在对应文件若不存在则自动下载并在完成后立即加载运行。这些模型大多来自开源生态例如Meta的Llama系列、Mistral AI的Mistral系列以及阿里云推出的Qwen系列等。Ollama会统一完成GGUF格式转换、默认推理参数配置以及聊天模板适配从而实现直接运行。Ollama本身并不负责模型训练而是作为模型分发与运行平台存在。关于Ollama的基本入门用法可参考Ollama教程。为实现快速调用Ollama提供了一套完整的命令行工具用于本地模型的下载、运行与管理其基本格式如下ollama command [args]可以通过以下命令查看Ollama支持的所有指令ollama --help在实际使用中常见操作主要包括模型拉取、运行、查看以及删除等。最核心的命令是ollama run model该命令首次执行时会自动下载模型随后进入交互式对话模式。在此模式下可以直接输入问题与模型对话结束时输入/bye或按CtrlD即可退出。因此大多数场景下只需使用run这一个命令即可完成从下载到运行的完整流程。例如ollama run qwen3.5:0.8b如果只需要执行一次推理而不进入交互模式可以使用ollama generate model prompt也可以从文件中读取prompt将其作为单条用户输入发送给模型完成推理并在输出结果后立即结束进程。ollama run model input.txt3.2.2 交互模式常用命令进入交互界面后操作对象已经不再是命令行而是模型会话本身。此时可使用以下快捷指令分类命令示例功能说明参数设置/set parameter .../set parameter top_p 0.5设置模型参数参数设置/set system string/set system 你是专家设置系统提示词参数设置/set format json/set format json强制JSON输出参数设置/set noformat/set noformat关闭格式限制参数设置/set verbose/set verbose显示统计信息参数设置/set quiet/set quiet关闭统计信息参数设置/set think/set think显示思考过程参数设置/set nothink/set nothink隐藏思考过程信息查看/show info/show info查看模型详情信息查看/show modelfile/show modelfile查看模型配置信息查看/show parameters/show parameters查看当前参数信息查看/show system/show system查看系统提示词信息查看/show template/show template查看Prompt模板会话管理/clear/clear清空上下文会话管理/bye/bye退出会话帮助/help/help显示帮助信息除了直接运行模型Ollama还可以查看模型的元数据和参数信息ollama show model查看当前正在运行的模型及其状态ollama ps如果希望只下载模型而不立即运行可以使用ollama pull model下载完成后可通过以下命令查看本地已安装的模型ollama list当模型不再需要时可以使用以下命令将其删除以释放磁盘空间ollama rm model关于本地存储模型默认保存在以下目录中cd ~/.ollama/models其目录结构通常如下models/ ├── blobs/ ├── manifests/Ollama并不会直接保存完整的.gguf文件而是将模型拆分为多个基于内容寻址的Blob数据块。这种设计能够支持断点续传、数据去重以及完整性校验并在运行时根据manifests中的索引动态组装模型。3.2.3 Python SDK调用模型Ollama提供了Python SDK可直接在本地调用模型实现文本生成、流式输出以及多轮对话。安装SDK并拉取模型pip install ollama ollama pull qwen3.5:0.8b单轮对话最基础的用法是使用generate接口进行单轮文本生成适用于简单问答或文本补全场景import ollama response ollama.generate( modelqwen3.5:0.8b, prompt你能做什么 ) print(response[response])若需要实时输出生成内容可以启用流式模式。流式模式会逐块返回生成结果更适合终端交互或Web前端展示场景from ollama import chat stream chat( modelqwen3.5:0.8b, messages[{role: user, content: 写一个Python冒泡代码}], streamTrue ) for chunk in stream: print(chunk[message][content], end, flushTrue)多轮对话对于需要上下文记忆的场景可通过messages维护完整历史记录from ollama import chat # 初始化对话历史可包含系统设定 history [ {role: system, content: 你是一个编程助手请用中文回答} ] # 第一轮用户提问 history.append({role: user, content: 推荐一本适合初学Python编程的书}) response chat(modelqwen3.5:0.8b, messageshistory, thinkFalse) print(response.message.content) # 将模型的回复加入历史 history.append({role: assistant, content: response.message.content}) # 第二轮基于历史继续提问 history.append({role: user, content: 这本书大概需要多久能学完}) response chat(modelqwen3.5:0.8b, messageshistory, thinkFalse) print(response.message.content)chat接口本身不保存上下文每次请求都必须传入完整history。开发者需要自行维护对话列表每轮把用户输入和模型回复追加进去再在下一轮整体传回。通过列表管理对话结构清晰直观支持system角色设定也便于调试和排查问题。3.3 Ollama自定义使用3.3.1 Modelfile配置基础配置在掌握模型下载与运行之后可进一步通过Modelfile机制构建自定义模型实现对模型行为、输出格式以及推理方式的长期控制。与一次性prompt不同Modelfile会在模型运行阶段自动注入配置因此更适合构建稳定、可复用的模型能力。关于Modelfile的详细介绍见官方文档Modelfile官方文档。首先创建一个Modelfiletouch Modelfile然后在文件中写入基础配置例如FROM qwen3.5:0.8b SYSTEM 回答必须以[分析]/[执行]开头并用步骤1、步骤2输出先结果禁止废话其中FROM用于指定基础模型SYSTEM用于定义长期生效的系统规则。完成基础配置后可以直接构建模型ollama create my-model -f ./Modelfile命令执行完成后会生成一个名为my-model的自定义模型。此时可以直接运行ollama run my-model输入任意问题模型输出会自动遵循该配置规则。常用Modelfile指令如下FROM指定基础模型或GGUF文件SYSTEM定义系统提示词TEMPLATE定义Prompt模板PARAMETER设置推理参数ADAPTER指定LoRA适配器MESSAGE提供Few-shot示例REQUIRES指定最低Ollama版本LICENSE声明许可证高级配置除基础系统提示词外还可以进一步配置推理参数与输出结构但是修改后需要重新构建模型并再次运行FROM qwen3.5:0.8b SYSTEM 你是一个专业顾问回答必须严格遵守 1. 只输出最终答案 2. 不展示任何思考、推理、分析过程 3. 禁止输出 think、/think 或中间步骤 4. 内容直接、简洁、有结论 5. 总字数不超过150字 固定输出格式 结论一句话核心答案 要点 - 要点1 - 要点2 - 要点3 潜在问题一句话最大潜在问题 总结不超过两行 PARAMETER temperature 0.6 PARAMETER top_p 0.8 PARAMETER top_k 20 PARAMETER num_ctx 4096 PARAMETER repeat_penalty 1.5 PARAMETER num_predict 1000 TEMPLATE {{ if .System }}{{ .System }} {{ end }}用户{{ .Prompt }} 助手Modelfile并非简单固化prompt而是将零散的Prompt Engineering转化为结构化配置体系这些部分共同构成完整的模型行为控制机制SYSTEM定义行为规则PARAMETER控制生成特性TEMPLATE决定输入输出结构ADAPTER用于扩展模型能力。3.3.2 导入自有模型如果希望在Ollama中使用已有模型文件需要注意Ollama不支持直接运行任意格式的模型文件模型必须为GGUF格式。如果使用的是.pt、.bin或safetensors格式的文件需要先转换为GGUF格式可以使用llama.cpp提供的convert.py或convert_hf_to_gguf.py工具进行转换。准备好GGUF模型文件后在同一目录下创建Modelfile声明模型来源同时需要正确配置TEMPLATE。TEMPLATE用于定义用户、系统和助手消息的拼接方式从而让模型能够按照训练时的对话格式正确理解输入。以下模板适用于Qwen3.5系列模型完整模板说明可参考Qwen3.5 Ollama完整ChatML模板FROM ./mymodel.gguf TEMPLATE {{- if .System }} |im_start|system {{ .System }} |im_end| {{- end }} {{- range .Messages }} |im_start|{{ .Role }} {{ .Content }} |im_end| {{- end }} |im_start|assistant think PARAMETER stop |im_end| PARAMETER stop |im_start| PARAMETER temperature 0.7随后执行ollama create mymodel -f Modelfile命令执行成功后模型即完成注册注册后使用ollama run mymodel运行模型通过ollama list查看已注册模型列表。若输出类似mymodel xxx xxxGB说明本地模型已成功接入并可正常使用。3.3.3 Ollama APIOllama核心是一个本地常驻服务本质为HTTP API Server默认监听地址为127.0.0.1:11434。所有模型加载、文本生成、上下文管理以及对话请求均通过该服务统一处理。在使用ollama run运行模型时Ollama会自动检查服务状态。若服务未启动则自动在后台拉起服务进程因此通常无需手动管理。在服务器部署、脚本调用或独立API服务场景下也可以手动启动服务ollama serve服务启动后还可通过HTTP API进行模型调用。默认API地址http://localhost:11434/api常用接口如下/api/generate文本生成/api/chat对话接口支持流式返回/api/pull拉取模型/api/tags查询本地模型列表调用示例如下curl http://localhost:11434/api/generate -d {model:qwen3.5:0.8b,prompt:hello}3.3.4 Ollama聊天界面Ollama负责本地模型的下载、管理和运行支持命令行或API调用但默认不提供网页聊天界面。如需浏览器中的对话体验可以搭配OpenWebUI使用。OpenWebUI负责提供聊天窗口、历史记录、模型选择等界面功能底层的模型推理仍然由Ollama完成。整体关系可以理解为浏览器 ↓ OpenWebUI聊天界面 ↓ Ollama API http://localhost:11434 ↓ 本地LLMOllama环境准备在使用OpenWebUI之前需要先确保Ollama服务已启动ollama serveOllama默认监听地址为http://localhost:11434可通过以下命令检查Ollama是否正常运行curl http://localhost:11434/api/tags若能返回模型列表说明Ollama服务已启动成功。安装并启动OpenWebUI可通过pip安装OpenWebUIpip install open-webui安装完成后启动服务open-webui serve启动成功后在浏览器中访问http://localhost:8080首次进入OpenWebUI时需要创建一个本地管理员账户该账户仅用于当前OpenWebUI系统的登录和管理。连接Ollama通常情况下若Ollama和OpenWebUI运行在同一台电脑上OpenWebUI会自动识别本机的Ollama服务。如果OpenWebUI没有自动识别可以进入OpenWebUI的设置页面手动填写Ollama地址http://localhost:11434配置完成后OpenWebUI即可调用Ollama中的本地模型。在OpenWebUI中选择模型进入OpenWebUI聊天页面后可以在页面顶部或输入框附近找到模型选择框。如果Ollama本地已下载多个模型例如qwen3.5:0.8b llama3.1 mistral这些模型会出现在OpenWebUI的模型列表中。使用时只需选择对应模型然后输入问题即可。如果想更换模型无需重启Ollama或OpenWebUI直接在聊天页面的模型选择框中切换即可继续提问。如果某个模型不再使用可以通过Ollama的rm命令删除。删除后刷新OpenWebUI页面模型列表也会随之更新。4 参考大模型学习6-模型量化与推理部署一文梳理主流大模型推理部署框架llama.cpp大模型学习5-高效微调框架Unsloth使用指北llama.cpp使用指南Qwen3.5本地部署指南QwQ-32B高效运行教程Ollama官方文档Ollama下载解决Ollama官方下载过慢的问题Ollama模型库Ollama教程Modelfile官方文档Qwen3.5 Ollama完整ChatML模板本文来自博客园作者落痕的寒假转载请注明原文链接[深度学习] 大模型学习8上-推理部署框架llama.cpp与Ollama使用指北 - 落痕的寒假 - 博客园分类: 深度学习, Python, 自然语言处理与语音识别免责声明本内容来自平台创作者博客园系信息发布平台仅提供信息存储空间服务。好文要顶 关注我 收藏该文 微信分享落痕的寒假粉丝 - 57 关注 - 0加关注10升级成为会员« 上一篇 [编程基础] Python测试基础教程» 下一篇 [深度学习] 大模型学习8下-高性能推理引擎vLLM学习笔记posted 2026-05-18 07:54 落痕的寒假 阅读(427) 评论(0) 收藏 举报

相关新闻

专科生逆袭:暑假自学冲刺专升本

专科生逆袭:暑假自学冲刺专升本

我是一名来自顺德职业技术大学的24级大数据技术专科生,在某一天的凌晨看到别人美好的生活突然压力山大决定考27年专升本,目标是公办本科。现在打算自己在b站等各个软件上找需要的视频自学,打算在暑假两个月内学完c语言和第一遍的高数&#xf…

2026/6/26 1:27:25阅读更多 →
说一件让我特别破防的事/

说一件让我特别破防的事/

前两周的一个周一早上,我定了 7 点半的闹钟,想在 9 点开会之前把一份提案里的三个关键数据再过一遍。我拿起手机的时候,锁屏上已经堆了 55 条通知。微信、飞书、邮件、美团、京东、银行、12306、两个股票盯盘软件,外加一堆乱七八糟…

2026/6/26 1:22:24阅读更多 →
G1 释放物理内存,避免长期无效占用内存

G1 释放物理内存,避免长期无效占用内存

背景 用户咨询了一个内存资源利用的场景。场景如下: 他们的 java服务主要是白天有访问,晚上量很少。有一些零散的任务需要运行。 他们的想法是把这些零散的任务在晚上放在 java 服务的机器上运行,这样就可以在不买新的机器的情况下&#x…

2026/6/26 1:22:24阅读更多 →
终极免费网盘下载加速解决方案:告别限速,9大平台全兼容的完整指南

终极免费网盘下载加速解决方案:告别限速,9大平台全兼容的完整指南

终极免费网盘下载加速解决方案:告别限速,9大平台全兼容的完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘…

2026/6/26 2:27:31阅读更多 →
区块链交易ID唯一性的一种司法应用

区块链交易ID唯一性的一种司法应用

222万现金交了出去,区块链交易ID全是同一个。▎案情 2024年12月,陆先生被微信"同小区邻居"诱导开通境外网店,对方以"外汇管制不便"为由让他线下取现换U。陆先生取了222万现金与"取手"陈某交接,收到…

2026/6/26 2:27:31阅读更多 →
你在简历中写到“熟悉MySQL索引优化、慢SQL处理”,请举例说明你在项目中遇到过的一个慢查询,以及你是如何定位和解决的。

你在简历中写到“熟悉MySQL索引优化、慢SQL处理”,请举例说明你在项目中遇到过的一个慢查询,以及你是如何定位和解决的。

在xxxxx项目中,有一个查询“用户近7天积分变动明细”的接口响应超过3秒。定位:开启MySQL慢查询日志,发现一条SELECT * FROM points_log WHERE user_id ? AND create_time BETWEEN ? AND ?。分析:使用EXPLAIN发现typeALL&#…

2026/6/26 2:27:31阅读更多 →
RAG答案溯源:让回答能查到出处

RAG答案溯源:让回答能查到出处

先把结论摆这儿:想让 RAG 的每句回答都能查到引用出处,核心就一件事——在切片入库时给每个 chunk 打上来源元数据(文件名、段落号、原文),检索回来后让模型在答案里带上编号,最后把编号映射回原文。听起来绕,实际改动不大,我用一个下午折腾通了,下面是完整步骤。 背景交代一下…

2026/6/26 2:27:31阅读更多 →
下载 | Win11 官方精简版,系统占用空间极少!(6月更新、Win11 IoT物联网 LTSC版、适合老电脑安装使用)

下载 | Win11 官方精简版,系统占用空间极少!(6月更新、Win11 IoT物联网 LTSC版、适合老电脑安装使用)

⏩ 【资源A023】Win11 LTSC 2024 ISO系统映像 🔶Win11 物联网IoT LTSC版,默认无TPM等硬件限制,更方便老电脑安装使用。LTSC是长期服务渠道版本,网友俗称“老坛酸菜版”,相当于微软官方的精简版Win11,精简了…

2026/6/26 2:27:31阅读更多 →
Suricata深度流量分析:解密HTTPS与高级威胁狩猎实战指南

Suricata深度流量分析:解密HTTPS与高级威胁狩猎实战指南

1. 项目概述:从“看热闹”到“看门道”的流量分析进阶在网络安全这个行当里干了十几年,我见过太多同行把流量分析工具当“黑盒子”用。抓个包,导进Suricata或者Wireshark,看着花花绿绿的告警弹窗,要么一头雾水&#xf…

2026/6/26 2:22:31阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →