一文讲透 AI 开发高频术语：LLM、Agent、RAG、Function Calling 到底是什么？-拓冰网站优化

原创不易转载请注明出处。适合准备 AI 方向面试的 Java 后端同学阅读。前言2025 年之后Java 后端岗位的 JD 里越来越多出现这些词“熟悉 LLM 应用开发了解 RAG、Agent、Function Calling 等技术”“有 Spring AI / LangChain 开发经验优先”两年前这些词还只是算法工程师的专属现在后端开发也要掌握了。我在自己的项目中用 Spring AI 做了一个智能教育服务 Agent 平台涉及到 Function Calling、RAG、向量检索、Prompt 工程这些技术。面试时很多同学对算法八股对答如流但被问到 Agent 和 RAG 的区别、Function Calling 的底层协议时卡住了。本文面向 Java 后端同学从工程落地的角度把这些 AI 新词逐个讲清楚。一、LLM大语言模型一句话能聊天、能写代码、能理解你意图的超大神经网络。底层是什么LLM Large Language Model本质上是一个基于 Transformer 架构的深度神经网络用海量文本数据训练出来。你和它说话它根据你已经说的内容预测下一个最可能出现的词Token一个接一个地生成完整回答。几个核心特性参数规模巨大从 7B70 亿到 671B6710 亿不等参数越多推理能力越强但对硬件要求也越高涌现能力当参数规模超过一定阈值时模型会突然具备一些训练时没有刻意教的理解能力比如逻辑推理、代码生成、多语言翻译上下文窗口一次能记住多少对话历史。从最早的 4K Token 到现在动辄 128K、1M Token能塞一整本书进去你项目里用的Qwen-Plus通义千问、DeepSeek-V3、本地 Ollama 跑 Qwen2.5 7B 量化版。三个模型按场景分工——流式输出和 Function Calling 用 Qwen最稳通用对话用 DeepSeek便宜开发测试用本地 Ollama零成本。二、Prompt Engineering提示词工程一句话给 LLM 写说明书告诉它你是谁、要干什么、怎么干。不是简单的提问你和 ChatGPT 聊天输入一句话叫 Prompt。但 Prompt Engineering 是系统性地设计一段结构化的指令包含角色设定、行为规则、输出格式约束、错误兜底策略。举一个真实例子我的项目里 AI 面试官的系统提示词你是一位资深后端技术面试官负责考察候选人的技术深度。请从以下四个维度对候选人的回答进行评估 - 技术深度1-9分 - 表达逻辑1-9分 - 问题拆解能力1-9分 - 知识广度1-9分技术深度评分锚点 1-3分只描述了概念定义没有深入原理 4-6分能解释底层机制和关键设计 7-9分能引申讨论设计权衡和替代方案输出格式必须严格遵守 {技术深度: X, 表达逻辑: X, 问题拆解能力: X, 知识广度: X, 评语: ...}关键设计点分层评分锚点不是让 LLM 自由发挥打分而是给了具体的行为描述LLM 只做对照匹配输出格式约束要求返回 JSON代码层做正则提取兜底防止 LLM 返回格式乱掉角色人设资深面试官这个设定让 LLM 自动切换到更严谨的语调Prompt 写得好不好直接决定 AI 应用好不好用。很多人抱怨AI 不够聪明其实很多时候是 Prompt 不够精确。三、Token令牌/词元一句话LLM 计费和计算的基本单位不是字也不是词。1 个 Token 大概是多少中文1 个汉字 ≈ 1.5-2 个 Token 英文1 个单词 ≈ 1-2 个 Token 代码平均每 4-5 个字符 ≈ 1 个 Token 例子 HashMap 的扩容机制是什么 → 约 15 个 Token 一段 1000 字的文章 → 约 1500-2000 个 TokenToken 怎么计费大模型的 API 都是按 Token 收钱的。单次调用的费用 (输入 Token 数 × 输入单价) (输出 Token 数 × 输出单价)。对话越长Prompt 里塞的历史消息越多越烧钱。这也是为什么我的项目中本地 Ollama 用来调 Prompt——每改一个字都走云端 APIToken 哗哗烧本地随便测零成本。四、上下文窗口Context Window一句话LLM 一次能记住的最大 Token 数量。为什么重要早期 GPT-3.5 4K Token ≈ 约 3000 个汉字 GPT-4 Turbo 128K Token ≈ 约 10 万汉字能塞一本中篇小说 Claude 3 200K Token Gemini 1.5 1M Token能把整部《三体》第一部放进去实际开发中的影响上下文窗口决定了你能塞多少历史对话和参考文档。比如做 RAG 问答时检索出 5 个相关片段加上系统提示词最近 10 轮对话用户当前问题这些全算在上下文窗口里。窗口不够大就得裁剪历史——旧对话被丢掉AI 就可能忘记前面聊了什么。五、Temperature温度参数一句话控制 LLM 输出的创造力和确定性。值越低回答越稳定保守值越高越天马行空。取值范围0-2默认通常为 0.7-1.0。Temperature 0 → 确定性最强同样的问题每次答案几乎一样 Temperature 0.7 → 平衡适合日常对话 Temperature 1.5 → 极具创造性适合写诗、头脑风暴选型参考代码生成选低温度0-0.3聊天对话选中温度0.7-0.9创意写作选较高温度1.0-1.5。调得太高会开始乱说——语法不通、逻辑断裂。六、Embedding向量化/嵌入一句话把一段文本句子、段落、图片转成一串浮点数数组语义相近的文本向量也相近。形象理解Python 是什么 → Embedding → [0.23, 0.78, -0.34, 0.67, ..., 0.12] (1024 维向量) Python 语言介绍 → Embedding → [0.25, 0.75, -0.31, 0.65, ..., 0.14] ← 和前一个很接近红烧肉怎么做 → Embedding → [-0.14, 0.21, 0.83, -0.45, ..., 0.92] ← 和前两个差异很大本质Embedding 模型把语义翻译成数学坐标。在这个坐标空间里Python和编程语言离得很近Python和美食离得很远。用在哪RAG 检索、语义搜索、文本去重、推荐系统、图像相似度匹配。我的项目里用阿里云的 text-embedding-v3 模型把 PDF 课件切成的文本片段转向量存进向量库。用户提问时把问题也转向量在向量库里找和它最接近的 5 个片段。七、Vector Store向量数据库一句话专门用来存向量并高效检索的数据库。和 MySQL 的区别MySQL SELECT * FROM articles WHERE title LIKE %Python% → 关键字匹配标题里没有Python这个词就搜不到 Vector Store 把 Python 是什么转成向量 → 在向量库里找最接近的向量 → 即使文档标题是编程语言入门只要内容相近就能搜到常见选型方案适用场景特点SimpleVectorStore开发/测试零依赖HashMap 存文件持久化Milvus百万-十亿级向量分布式、近似搜索、GPU 加速PineconeSaaS 方案免运维按量付费Weaviate中小规模自带向量化能力开箱即用ChromaPython 生态轻量、适合原型验证我的项目里开发阶段用 Spring AI 自带的 SimpleVectorStore——内存文件持久化零外部依赖10 分钟跑通全流程。代码面向VectorStore接口写将来数据量上去了换 Milvus只改一个 Bean 绑定业务代码不动。八、RAG检索增强生成一句话给 LLM 配了一个资料库提问时先检索相关资料喂给 LLM 后再让它回答。为什么需要 RAG大模型的知识有截止日期训练数据的截止时间而且不知道你自己的文档。你上传一份公司内部 PPT 问这里面讲了什么没有 RAG 的 LLM 只能瞎编。RAG 的完整流程┌─ 离线阶段提前做─────────────────────────────────┐ │ │ │ PDF 课件 → 文本切分每段 500 字 50 字重叠 │ │ → Embedding 向量化 → 存入 VectorStore │ │ │ └───────────────────────────────────────────────────────┘ ┌─ 在线阶段用户提问时───────────────────────────────┐ │ │ │ 用户提问 → Embedding 向量化 │ │ → VectorStore.similaritySearch(问题向量) │ │ → 返回最相似的 top 5 片段 │ │ → 拼入 Prompt根据以下资料回答问题 │ │ → LLM 生成回答 → 流式返回 │ │ │ └───────────────────────────────────────────────────────┘三个关键设计决策决策点选择为什么切分大小500 字太短语义不完整太长检索精度下降重叠量50 字防止一个概念被切在边界上跨段丢失防编造Prompt 约束不知道就说不知道宁可承认无知不能胡说八道我的项目里实现了一个 RAG 课件问答模块。多用户通过userId元数据隔离——A 传的课件B 检索时搜不到。向量检索返回的片段如果不相关LLM 老实说课件中未涉及此内容。九、Function Calling工具调用一句话让 LLM 能调用你的 Java 方法不只是聊天。普通对话 vs Function Calling普通对话用户今天天气怎么样 LLM抱歉我无法获取实时天气 ← 只能聊天不能做事 Function Calling 用户帮我在凤凰校区预约 Python 课 LLM不直接回复而是返回一个 JSON {function: checkCampus, arguments: {campusName: 凤凰}} 你的代码执行 checkCampus(凤凰) → 返回凤凰校区有 Python 基础班 LLM 拿到结果返回下一层 {function: reserveCourse, arguments: {courseId: 123}} → LLM 像一个调度员决定什么时候调用哪个工具你的代码才是干活的底层协议流程1. 客户端发送请求附带 tools 数组工具名描述参数 JSON Schema 2. LLM 返回 tool_calls工具调用请求不是文本 3. 你的代码执行方法拿到结果 4. 将结果追加到 messages 里再发给 LLM 5. LLM 根据结果决定继续调工具还是直接回复用户 6. 循环 1-5直到 LLM 返回最终文本我的项目里封了 7 个工具方法校区校验、条件查课、开课验证、课程预约、回退推荐、预约查询、取消预约每个方法加Tool注解。Spring AI 自动把方法签名转成 JSON Schema。用户输入一句话LLM 自主编排调用顺序——先校验校区、再查课、没找到换方案、确认后预约。代码里没有写死 if-else流程由 LLM 动态决策。十、Agent智能体一句话Agent LLM Function Calling 记忆自主决策是一个能独立完成复杂任务的AI 数字员工。Agent 和普通 LLM 的区别普通 LLM你问一句它答一句没有工具没有记忆没法自己决策 Agent - 有工具Function Calling→ 能调用你的代码能做实事 - 有记忆ChatMemory→ 记得前面聊过什么上下文连贯 - 有规划能力 → 能自主编排多步操作不需要人一步步指导 - 有兜底机制 → 工具调用失败会重试、更换策略ReAct 模式最常见的 Agent 推理模式Thought思考→ Action行动→ Observation观察→ Thought再思考→ ... 例子用户说想学 Python在红谷滩 Round 1Thought用户提到了地点红谷滩先确认校区存在 ActioncheckCampus(红谷滩) Observation校区存在有 Python 课程 Round 2Thought校区确认了查一下 Python 课 ActionsearchCourse(红谷滩, Python) Observation没有 Python 课 Round 3Thought没找到换策略看看其他校区有没有 ActionrecommendFallback(红谷滩, Python) Observation青山湖校区有 Python 基础班 Round 4Thought给用户展示备选方案返回红谷滩没 Python 课但青山湖有个 Python 基础班要预约吗我的项目里选课 Agent 就是 ReAct 模式的落地。7 个工具供 LLM 自主调用四层责任链兜底——参数校验拦非法输入 → 系统提示词约束 LLM 行为 → 工具返回空自动换策略 → 框架级重试。十一、Hallucination幻觉一句话LLM 一本正经地胡说八道——生成的内容看起来合理但实际上是编的。经典场景用户xx是谁 LLMxx是阿里巴巴的高级技术专家曾任... ← 纯编的用户引一下论文《xxx》的摘要 LLM给你一段完全不存在但看起来很学术的摘要 ← 也是编的为什么会产生幻觉LLM 的本质是预测下一个 Token不是查数据库。当训练数据不包含相关信息时它会根据概率生成最像那么回事的内容而不是这是事实吗我不知道我就说不知道。怎么缓解方法我的项目里效果RAG 检索限定回答范围提示词写只根据课件内容回答不知道就说不知道不编造课件之外的内容Function Calling 数据校验工具方法执行的是真实 SQL 查询返回值不可被 LLM 覆盖课程信息、预约单号全来自 DB系统提示词约束明确规则绝不要随意编造数据软约束有一定兜底效果RAG 约束提示词是目前最有效的防幻觉组合——不让 LLM “凭空回答”先给它资料再锁住回答范围。十二、Fine-tuning微调一句话拿一个已经训练好的基础模型用你自己的数据再训练一遍让它更擅长你的特定领域。和 Prompt Engineering 的区别Prompt Engineering不改变模型本身改的是说明书 → 成本低、即时生效、效果上限取决于模型基础能力 Fine-tuning改变模型本身的参数权重 → 成本高需要标注数据 GPU 训练、但效果好、模型真正学到了你的知识什么时候该 Fine-tunePrompt Engineering 搞不定的时候——比如你需要 LLM 模仿特定人设的语气、识别专业术语、或者输出固定格式的数据。如果 Prompt 调整几轮后效果还不满意才考虑 Fine-tune。我的项目里没用 Fine-tune评分锚点提示词工程在开发成本上远低于 Fine-tune教学场景效果已足够。但评分提示词的设计思路——预设评分锚点、输出格式约束——可以迁移到其他 AI 应用里。十三、SSEServer-Sent Events服务器推送事件一句话服务端主动向客户端单向推送数据客户端被动接收。和 WebSocket 的区别SSE 是单向的服务端 → 客户端基于 HTTP 协议浏览器EventSourceAPI 原生支持且自动重连适合 AI 流式回复、股票行情、通知推送。WebSocket 是全双工双向通信独立协议需要专门框架适合聊天、协作编辑、实时游戏。为什么 AI 对话用 SSE用户发一条消息就等回复不需要双向实时通信。LLM 逐 Token 生成 → 生成一个 Token 就通过 SSE 推一个 Token → 前端收到立刻显示 → 产生打字机效果。用户感知更流畅——1 秒内看到回复比等 5 秒看到完整回复体验好得多。底层原理HTTP Response Header Content-Type: text/event-stream Cache-Control: no-cache Connection: keep-alive 数据格式 data: {token:HashMap} ← 每行一个 Token data: {token:底层} ← 前端逐字渲染 data: [DONE] ← 结束标记我的项目里所有对话接口通过 Spring AI 的FluxString做 SSE 流式返回基于 Reactor 异步响应式编程——一行.stream().content()搞定。十四、MCPModel Context Protocol模型上下文协议一句话Anthropic 提出的一套开放协议目的是让 LLM 和外部工具/数据源之间的对接标准化。为什么需要 MCP现在每个团队都在造自己的轮子——A 公司自己写了一套工具调用逻辑B 公司写了自己的数据源适配C 公司写了自己的上下文管理。同样的事情大家各写一套互不兼容。MCP 想定义一套标准让 LLMClient通过统一协议去访问各种数据和工具Server。用 USB 类比USB 出现之前鼠标是 PS/2、键盘是 PS/2、打印机是并口——每个设备专属接口。USB 统一了所有外设的接口标准。MCP 想做 AI 世界的 USB——“不管是 MySQL 还是 REST API都用同一套协议接入 LLM”。和 Function Calling 的关系Function Calling 是 LLM 调用工具的机制“怎么调”MCP 是工具暴露给 LLM 的协议标准“怎么接”。两者互补——MCP 解决工具发现和规范化Function Calling 解决调用执行。目前 MCP 生态还在早期但方向值得关注。十五、一图总结各个概念之间的关系┌──────────────────────────────────────────────────────┐ │ 你的后端应用 │ │ │ │ ┌─────────────────────────────────────────────┐ │ │ │ Agent智能体 │ │ │ │ │ │ │ │ ┌─────────────┐ ┌──────────────────┐ │ │ │ │ │ ChatMemory │ │ Function Calling │ │ │ │ │ │ (会话记忆) │ │ (工具调用) │ │ │ │ │ └─────────────┘ └────────┬─────────┘ │ │ │ │ │ │ │ │ │ ┌─────────────────┴──────┐ │ │ │ │ │ Prompt Engineering │ │ │ │ │ │ (提示词工程) │ │ │ │ │ └────────────┬───────────┘ │ │ │ └───────────────────────┼─────────────────────┘ │ │ │ │ │ ┌───────────┴───────────┐ │ │ │ LLM (大模型) │ │ │ │ Qwen / DeepSeek │ │ │ └───────────┬───────────┘ │ │ │ │ │ ┌────────────────┼────────────────┐ │ │ │ │ │ │ │ ┌──────┴──────┐ ┌──────┴──────┐ ┌─────┴──────┐ │ │ │ RAG │ │ Vector │ │ 其他工具 │ │ │ │ (检索增强) │ │ Store │ │ (API/DB) │ │ │ │ │ │ (向量库) │ │ │ │ │ │ Embedding │ │ Milvus / │ │ MySQL │ │ │ │ (向量化) │ │ SimpleVS │ │ Redis │ │ │ └────────────┘ └────────────┘ └────────────┘ │ │ │ │ 输出层SSE 流式返回Token 逐字推送 │ │ 上下文Context Window一次能记住多少 │ │ 创造性Temperature控制回答的随机性 │ │ 防编造RAG Prompt 约束AI 的不会就闭嘴 │ └──────────────────────────────────────────────────────┘总结用你自己的项目串一遍如果你正在准备 AI 方向的面试用自己的项目把这串概念讲清楚我的 Agent 平台用 Spring AI 封装了 LLM通义千问通过 Prompt Engineering 设计评分锚点和行为规则用 Function Calling 让 LLM 自主编排 7 个业务工具完成选课闭环用 ChatMemory 存多轮对话上下文和 RAG 做课件问答Embedding VectorStore最后通过 SSE 流式返回给前端。防止 LLM 幻觉用 RAG 限定回答范围 Prompt 约束防止工具调错用四层责任链兜底。向量库开发用 SimpleVectorStore 零依赖生产预留 Milvus 升级路径。这句话说完面试官知道你不仅知道这些名词你还会用你甚至知道为什么这么选。

一文讲透 AI 开发高频术语：LLM、Agent、RAG、Function Calling 到底是什么？

相关新闻

摆脱论文困扰：6款2026年高效AI写作辅助网站深度测评

终极Markdown预览插件：一站式解决你的文档阅读与创作需求

Better BibTeX 终极指南：告别LaTeX文献管理的混乱时代

二进制分组感觉是一种比较少见的数据结构维护方式。

AI算力盒子工作原理解析：边缘端AI推理的实现逻辑全拆解

基于YOLOv11的骨折X光片智能检测系统

基于Si4731与PIC18F46K80的数字收音机开发指南

后缀数组学习笔记

TDA4系统启动流程

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

塞尔达传说旷野之息存档修改器：3分钟掌握海拉鲁世界自由定制技巧

告别 AccessKey：多云平台 CLI OAuth 免密认证完全指南

基于13DOF传感器与PIC32MZ的高精度嵌入式导航系统设计

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比