以为国企面试水,就吹吹自己熟悉 RAG,结果被问完整RAG的链路,面试官冷冷一句:“你之前项目是怎么跑通的?”,我的小手已经无处安放。
前段时间有个录友跟我复盘面试他面了某国企的 RAG 开发岗。面试官也不跟你客气直接问核心链路。 面试官“你说你做了 RAG那完整流程到底是什么”他“就是把文档向量化用户提问检索然后给模型生成答案……”面试官“离线阶段你做了什么在线阶段从查询到回答经过哪几步”他愣了“就是加载文档、切片、存库…… 然后查。”面试官“清洗、元数据、混合检索、重排、上下文构建这些在你链路里放在哪”他的小手开始无处安放了。。。RAG 的完整链路是什么今天我们就把它讲清楚。一、RAG 完整链路总览我们先用一张图把整条链路建立起来整条链路分两阶段离线侧负责把知识存进去在线侧负责把相关知识找出来、组合出答案。二、离线阶段原始文档RAG 系统的知识来源可以多种多样PDF 报告、Word 文档、网页、Markdown 文件、数据库记录、邮件……不同格式的文档需要不同的解析方式这一步通常叫做文档加载Document Loading。值得注意的是这一步的质量直接影响整个系统的上限。如果原始文档本身是扫描件或排版混乱的 PDF解析出来的文本就会充满噪声后续所有环节都会受损。Garbage in, garbage out在 RAG 里体现得非常明显。文档处理清洗与预处理解析出来的原始文本往往不能直接用需要做一轮清洗去掉页眉页脚、无意义的格式符号、重复内容识别并保留文档的标题结构过滤掉表格乱码、图片占位符等。这一步看起来琐碎但在实际项目里文档预处理往往是工程量最大、最容易被低估的部分。切片Chunking清洗好的文档不能整篇塞进向量库需要切成更小的片段chunk。这是 RAG 系统里设计决策最多的一个环节直接影响后续检索的精准度。为什么要切原因很直接一篇 20 页的文档用户的问题可能只和其中的某一段相关。如果把整篇文档作为一个单元存储和检索要么检索粒度太粗命中了整篇但相关内容被淹没要么上下文太长放不进模型或者注意力被稀释。切多大合适这没有通用答案需要根据文档类型、模型的上下文窗口、业务问题的颗粒度来决定。文章9会专门深入讲 Chunking 的策略这里先知道它是关键环节即可。向量化Embedding切好的每个 chunk都需要通过 Embedding 模型转换成一个向量一个高维浮点数数组这个向量代表了这段文字的语义。向量化的关键点是用户问题和文档 chunk 必须用同一个 Embedding 模型来处理这样两者的向量才处于同一个语义空间相似度计算才有意义。同时还需要存储对应的元数据这个 chunk 来自哪份文档、原文在哪一页、文档的创建时间等。元数据在过滤检索结果时非常重要比如只看最近三个月的文档这类需求就需要依赖元数据来实现。存入向量数据库向量和元数据分别存入向量数据库如 Milvus、Weaviate、Chroma、Pinecone 等和普通数据库/文档存储。向量数据库的核心能力是近似最近邻搜索ANN能在数百万向量中毫秒级找到与查询向量最相似的 top-K 结果。三、在线阶段下面这张图单独展示在线检索链路的各个环节以及常见的优化分叉点Query 处理用户的原始问题不一定适合直接用来检索。有几个常见的预处理手段Query 改写把口语化的问题转成更适合检索的形式或者把一个复杂问题拆解成几个子问题分别检索。比如我们公司的报销流程和上限分别是什么可以拆成两个独立的检索任务。Query 扩展对问题做同义词扩展提高召回覆盖面避免因为用词差异漏掉相关文档。这些步骤都是可选的优化基础实现可以先跳过。检索RetrievalQuery 向量化之后和向量库里存储的所有 chunk 向量做相似度计算通常用余弦相似度召回相似度最高的 top-K 个 chunk。K 的取值通常在 3-10 之间。更完整的实现会做混合检索Hybrid Search同时跑向量检索语义相似和关键词检索精确匹配如 BM25然后把两路结果合并。这样能兼顾语义理解和关键词精准匹配两种优势。Rerank精排初步召回的 top-K 结果相关性不一定都高。Rerank 是在召回之后加一道精排用一个专门的 Cross-Encoder 模型对Query, Chunk对打分按新分数重新排序只保留最相关的几条。Rerank 是 RAG 优化里最常见也最有效的手段之一代价是多一次模型推理的延迟。上下文构建Context把最终筛选出来的 chunk加上元数据来源文档、页码等按一定格式拼装成上下文连同用户的原始问题一起构建出最终的 Prompt送给生成模型。Prompt 的结构通常是★你是一个企业知识库助手。请根据以下资料回答问题如果资料中没有相关信息请明确说明。参考资料[来源产品手册第3页]…chunk 内容…用户问题我们的退款政策是什么生成Generation生成模型LLM接收完整 Prompt基于提供的上下文生成回答。关键点是 Prompt 里要有明确的引导指令——让模型优先依据资料回答而不是依赖自身参数知识并要求在答案里标注来源。四、这条链路的核心认知理解了完整链路可以归纳几个关键认知每个环节都影响最终质量但影响方式不同。Chunking 决定了能不能检索到相关内容Embedding 模型决定了语义理解是否准确Rerank 决定了召回的 top 结果是否真的最相关Prompt 设计决定了模型是否能正确利用上下文。优化 RAG 本质上是找到当前系统的薄弱环节而不是无差别地调参。离线和在线必须保持一致。Embedding 模型、文本清洗方式离线建索引时怎么做在线检索时就必须一样。如果索引是用 A 模型建的检索时用 B 模型两边的向量空间不同相似度计算完全失效。检索的目标是精准不是全面。召回 top-3 的高质量 chunk通常比召回 top-20 的混杂结果更好。上下文越长模型注意力越分散信噪比越低。五、常见误区误区 1“RAG 向量检索”向量检索只是在线侧的一个步骤。完整的 RAG 系统还包括文档解析、Chunking 策略、Embedding 选型、元数据管理、Rerank、Prompt 设计等一系列工程工作缺少任何一环都会拖累整体效果。误区 2“只要模型够强Chunking 随便切就行”Chunking 是 RAG 里最底层的基础设施模型再强如果检索到的 chunk 要么太短语义不完整要么太长相关信息被稀释生成质量都会大打折扣。模型能力无法弥补检索质量的缺陷。误区 3“Rerank 一定要加”Rerank 是有代价的多一次模型调用意味着更高的延迟和成本。对于对实时性要求高、或者文档量较小的场景精准的 Embedding 合理的 top-K 往往已经足够。先评估是否真的需要再决定是否加。六、面试可能怎么问Q请描述一个完整的 RAG 链路。参考思路分两段回答。离线侧文档加载 → 清洗预处理 → Chunking → Embedding 向量化 → 存入向量数据库同时存元数据。在线侧用户 Query →可选 Query 改写→ Query 向量化→向量检索召回 top-K →可选混合检索、Rerank 精排→ 拼装 Context Prompt → LLM 生成 → 输出带来源引用的答案。QRAG 里哪些环节最影响效果参考思路离线侧最关键的是 Chunking 策略决定检索粒度和 Embedding 模型选型决定语义理解质量。在线侧最关键的是 Prompt 设计引导模型正确利用上下文。其中文档质量是前提再好的系统也处理不好乱码和结构混乱的输入。QEmbedding 模型在离线和在线需要保持一致吗为什么参考思路必须一致。Embedding 模型把文本映射到一个高维向量空间不同模型的向量空间是不同的。离线用 A 模型建的索引在线用 B 模型生成 Query 向量两者处于不同空间余弦相似度计算完全失去意义检索结果会非常混乱。七、结语RAG 不是一个算法而是一条工程流水线。离线侧解决知识怎么进去在线侧解决知识怎么找出来、怎么用起来。把这条链路想清楚了后续讨论任何一个具体的优化点——Chunking 怎么切、Embedding 怎么选、Rerank 怎么用——都有了明确的落脚位置。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

电脑PS3模拟器畅玩战神3完整指南,优化补丁助你重温经典

电脑PS3模拟器畅玩战神3完整指南,优化补丁助你重温经典

# 电脑PS3模拟器畅玩《战神3》完整指南:优化补丁助你重温经典## 引言《战神3》作为PS3时代动作游戏的巅峰之作,凭借宏大的场景、酣畅淋漓的战斗和奎托斯的复仇史诗,至今仍被玩家津津乐道。然而,随着PS3主机逐渐退出历史舞台&#…

2026/6/25 13:07:22阅读更多 →
水晶手链选购全攻略——九紫离火运下的矿物光学与消费决策

水晶手链选购全攻略——九紫离火运下的矿物光学与消费决策

2024-2043年九紫离火运,紫色系水晶价格水涨船高。作为光学工程背景出身的玩家,本文从晶体光学、市场乱象、选购决策三个层面,帮你建立系统性的水晶认知框架。一、紫水晶的光学特性与"能量"误解 紫水晶(Amethyst&#xf…

2026/6/25 13:02:21阅读更多 →
欧盟AI法案实操指南:高风险AI系统合规落地72小时路线图

欧盟AI法案实操指南:高风险AI系统合规落地72小时路线图

1. 项目概述:这不是“又一部AI法案”,而是一场系统性治理框架的落地实操“EU Accelerates AI Regulation”——这个标题背后,没有抽象的政策宣言,没有空泛的监管口号,只有一套正在被工程师、合规官、产品负责人和初创公…

2026/6/25 13:02:21阅读更多 →
从HDMI规范看HDMI接口电路设计

从HDMI规范看HDMI接口电路设计

HDMI规范概述• TMDS Transition Minimized Different Signal 3路数据通道、1路时钟通道 • TMDS Character A 10bit TMDS-encode value 1个TMDS Clock周期传输1个Character • Tbit Time duration of a single bit carried across the TMDS data channels • Tcharacter Time …

2026/6/25 14:28:14阅读更多 →
MySQL多表JOIN聚合磁盘溢出?分批聚合实战:某教育平台50万行数据从崩溃到稳定

MySQL多表JOIN聚合磁盘溢出?分批聚合实战:某教育平台50万行数据从崩溃到稳定

作者的话:一、事故背景 某教育集团的数据中台需要从DW层聚合生成6张DM层指标表。其中最大的4张表:表名说明最终行数聚合方式dm_campus_subject_fail_rate校区学科不及格率约5万行三表JOIN GROUP BYdm_campus_subject_avg_score校区学科平均分约2.6万行三…

2026/6/25 14:28:14阅读更多 →
如何快速部署ChatLaw:完整的开源中文法律AI助手搭建指南

如何快速部署ChatLaw:完整的开源中文法律AI助手搭建指南

如何快速部署ChatLaw:完整的开源中文法律AI助手搭建指南 【免费下载链接】ChatLaw ChatLaw:A Powerful LLM Tailored for Chinese Legal. 中文法律大模型 项目地址: https://gitcode.com/gh_mirrors/ch/ChatLaw 在当今数字化时代,获取…

2026/6/25 14:28:14阅读更多 →
MC9S08SE8中断与看门狗实战:从寄存器配置到系统稳定设计

MC9S08SE8中断与看门狗实战:从寄存器配置到系统稳定设计

1. 项目概述在嵌入式开发的世界里,中断和看门狗定时器是确保系统稳定、可靠、实时响应的两大基石。无论你是在设计一个智能家居的温控器,还是一个工业现场的电机控制器,只要涉及到与外部世界的交互或对异常状态的监控,这两项技术就…

2026/6/25 14:28:14阅读更多 →
Claude / Cursor 接入 API 常见报错与完整解决方案(新手避坑)

Claude / Cursor 接入 API 常见报错与完整解决方案(新手避坑)

最近 AI 编程工具火得一塌糊涂,尤其是 Cursor 加上 Claude 模型的组合,简直是写代码的“物理外挂”。但很多新手在刚上手配置 API 时,往往还没开始爽,就被满屏的报错劝退了。作为一个踩过无数坑的过来人,我花了几天时间…

2026/6/25 14:28:14阅读更多 →
DDD-027:事件溯源(Event Sourcing)

DDD-027:事件溯源(Event Sourcing)

DDD-027:事件溯源(Event Sourcing) 本章导读 事件溯源(Event Sourcing)是一种革命性的数据持久化范式,它不再存储对象的当前状态,而是存储导致当前状态的所有事件。每一个业务操作都以事件的形式被记录,通过回放这些事件可以重建任意时刻的系统状态。本章将深入探讨事…

2026/6/25 14:23:13阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

上半年跳槽,面了十几家公司。说句实话,不是能力不行,是面试现场太容易崩了。 明明准备了一周,面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。 后来开始试市面上的AI面试辅助工具。前前后后装了5款,踩…

2026/6/25 11:52:11阅读更多 →
Claude Code 提示词设计:从塑造“人格”到建立“状态机”

Claude Code 提示词设计:从塑造“人格”到建立“状态机”

当前 AI Agent 设计的核心痛点在于:大模型不缺写代码的能力,缺的是克制力、边界感和验证逻辑。Prompt 不再是用来塑造“人格”的,而是用来建立“状态机(State Machine)”和“行为门禁(Guardrails&#xff0…

2026/6/25 11:52:11阅读更多 →
MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发:创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列 字数: 约 1400 字…

2026/6/25 11:52:11阅读更多 →