从零开始理解大模型:Tokenizer → 向量 → RAG(小白超详细版)
从零开始理解大模型Tokenizer → 向量 → RAG小白超详细版 0. 你先要理解大模型到底在干嘛一句话大模型 把“文字”变成“数字”再用数学方法理解语义 1. 为什么计算机看不懂中文计算机只懂数字向量矩阵例如❌ 我喜欢苹果机器不懂✔ [1001, 1002, 1003]机器可以处理✂️ 2. Tokenizer第一步“切词工具”2.1 Tokenizer是什么Tokenizer 把文字切成“最小语义单位”的工具例如我喜欢苹果可能变成我 / 喜欢 / 苹果2.2 常见切法✔ 按字切我 / 喜 / 欢 / 苹 / 果✔ 按词切我 / 喜欢 / 苹果✔ 子词切最常见我 / 喜 / 欢 / 苹果或我 / 喜欢 / 苹 果✔ Byte级GPT按字节拆分 优点不会出现“生僻字无法处理” 3. Vocab词表机器的“字典”3.1 什么是vocabvocab token ↔ 数字 的映射表例如我 → 1001 喜欢 → 1002 苹果 → 10033.2 本质理解 vocab 就是一本“翻译字典”3.3 vocab怎么来的不是人工写的而是Step1收集大量文本我喜欢苹果 你喜欢香蕉Step2统计常见词喜欢 出现很多次 苹果 出现很多次Step3生成词表喜欢 → token 苹果 → tokenStep4分配编号token id喜欢 → 1002 苹果 → 1003 4. Token ID只是“编号”4.1 定义token id vocab里的数字编号苹果 → 10034.2 重点❌ 没有语义❌ 不代表“苹果的意思”✔ 只是索引4.3 类比学号学生1001张三 学号 ≠ 人的能力 token id ≠ 语义 5. Embedding语义向量5.1 为什么需要它数字没意义1001 1002 1003所以要变成[0.12, -0.33, 0.77, ...]5.2 这个东西叫 embedding词向量5.3 本质embedding 一个“查表矩阵”token id → 向量5.4 举例苹果 → [0.2, -0.7, 0.33 ...] 香蕉 → [0.21, -0.69, 0.31 ...] 汽车 → [-0.9, 0.1, 0.4 ...]5.5 语义规律苹果 ≈ 香蕉接近苹果 ≠ 汽车远 6. 余弦相似度判断像不像6.1 是什么用来判断两个向量是否相似cos(A, B)6.2 结果范围值含义1完全相似0无关-1完全相反6.3 用途语义搜索推荐系统RAG检索 7. Chunk分块为什么要切文档7.1 问题如果不分块一整篇文档太长 → 模型无法精准理解7.2 解决方案把文档拆成小块chunk1请假制度 chunk2报销制度 chunk3考勤制度7.3 为什么重要因为 检索的是“块”不是“整篇文章”7.4 chunk太大 vs 太小太大❌ 语义混乱太小❌ 没上下文7.5 推荐500 tokens overlap 100️ 8. 向量数据库用来存chunk → embedding常见MilvusPineconeQdrantWeaviatepgvector功能存向量相似度搜索ANN加速 9. RAG最重要的部分9.1 是什么RAG 检索 生成9.2 为什么需要因为大模型不知道私有数据知识可能过时会“胡说”9.3 工作流程用户问题 ↓ 转向量 ↓ 向量数据库搜索 ↓ 找到相关chunk ↓ 拼prompt ↓ 大模型回答9.4 举例问题病假需要什么材料系统找“病假相关chunk”拼给模型模型回答9.5 本质 RAG 给大模型“外挂知识库” 10. 全链路总结非常重要中文文本 ↓ Tokenizer切词 ↓ Token ↓ Vocab查表 ↓ Token ID ↓ Embedding向量 ↓ 语义空间 ↓ Cosine相似度 ↓ Chunk检索 ↓ RAG ↓ 大模型回答 11. 一句话终极总结大模型不是“记住知识”而是“把文字变成向量在空间中找相似再生成答案”

相关新闻

基于Ai8051U的高可靠性燃气报警系统设计

基于Ai8051U的高可靠性燃气报警系统设计

1. 项目背景与核心需求燃气安全报警系统是保障居民和企业用气安全的重要防线。传统报警系统多采用通用型单片机设计,存在响应速度慢、功耗高、抗干扰能力弱等问题。我们团队基于Ai8051U这款专为工业控制优化的单片机,开发了一套高可靠性燃气报警电路模块…

2026/6/27 16:16:21阅读更多 →
基于Ai8051U单片机的燃气安全报警系统设计

基于Ai8051U单片机的燃气安全报警系统设计

1. 项目背景与核心需求燃气安全一直是工业生产和居民生活中不可忽视的重要环节。作为从业十余年的嵌入式系统工程师,我最近完成了一个基于Ai8051U单片机的燃气安全报警系统电路模块设计项目。这个项目源于某燃气企业对现有安全监测系统的升级需求,他们需…

2026/6/27 16:16:21阅读更多 →
基于Ai8051U的燃气安全监测系统设计与实现

基于Ai8051U的燃气安全监测系统设计与实现

1. 项目背景与核心需求燃气安全一直是民生工程的重中之重。作为从业十余年的嵌入式系统工程师,我参与过多个燃气安全监测项目,深知传统报警系统存在的响应延迟、误报率高、维护成本大等痛点。这次基于Ai8051U单片机开发的燃气企业安全报警系统公用部分&a…

2026/6/27 16:16:21阅读更多 →
066、CodeX 插件市场:发现、安装、评估与管理社区插件

066、CodeX 插件市场:发现、安装、评估与管理社区插件

066、CodeX 插件市场:发现、安装、评估与管理社区插件 上周五凌晨两点,我盯着终端里那条诡异的“Module not found: Can’t resolve ‘codex-plugin-utils’”报错,咖啡已经凉透了。明明昨天还能正常运行的流水线,今天突然炸了——后来发现是同事在插件市场里手滑点了个“自…

2026/6/27 18:01:34阅读更多 →
挖到宝!企业通勤不用瞎忙活,这套出行系统真的好用✨

挖到宝!企业通勤不用瞎忙活,这套出行系统真的好用✨

做企业后勤、行政的朋友应该都有同感:公司花了不少预算做员工福利,但大家的满意度依旧平平;自己天天围着通勤琐事打转,忙得团团转,问题却总层出不穷。线路绕路不合理、班车空跑浪费资源、临时出行没人统筹、早晚高峰乘…

2026/6/27 18:01:34阅读更多 →
计算机毕业设计之jsp基于Web的有机蔬菜销售网站的设计与实现

计算机毕业设计之jsp基于Web的有机蔬菜销售网站的设计与实现

近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生活带来了十分的便利,有机蔬菜销售网站利用计算机网络实现信息化管理,使整个有机蔬菜销售网站的发展和服务水平有显著提升。本文拟采用Eclipse开…

2026/6/27 18:01:34阅读更多 →
实物中介型洗钱通道的技术识别与穿透方法

实物中介型洗钱通道的技术识别与穿透方法

实物中介型洗钱通道的技术识别与穿透方法摘要: 本文从资金追踪取证的技术视角,分析犯罪链条中插入实物商品中介环节(如高流通性奢侈品)所制造的追踪断点,以及检察机关如何通过资金流分析、时序关联验证和链上数据交叉比…

2026/6/27 18:01:34阅读更多 →
Joy-Con Toolkit完整指南:如何解锁任天堂手柄的隐藏功能

Joy-Con Toolkit完整指南:如何解锁任天堂手柄的隐藏功能

Joy-Con Toolkit完整指南:如何解锁任天堂手柄的隐藏功能 【免费下载链接】jc_toolkit Joy-Con Toolkit 项目地址: https://gitcode.com/gh_mirrors/jc/jc_toolkit Joy-Con Toolkit是一款专为任天堂Switch手柄设计的终极工具,它能帮助你解锁Joy-Co…

2026/6/27 18:01:34阅读更多 →
TikTok Analytics数据深度教学 TK数据优化投放ROI实操

TikTok Analytics数据深度教学 TK数据优化投放ROI实操

绝大多数 TK 卖家只会浏览播放、点赞基础数据,忽略 Analytics 后台深层流量指标,盲目投流、批量上新,导致广告预算空耗、产品转化低迷。平台后台隐藏的流量来源、用户停留、受众画像、流失节点数据,是调整内容、定向投放、选品布局…

2026/6/27 17:56:34阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/27 11:20:40阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 5:46:02阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/27 11:20:39阅读更多 →
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声&#xff1a;Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:03阅读更多 →
Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider&#xff1a;3分钟AI智能分层&#xff0c;彻底告别手动抠图时代 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作烦…

2026/6/27 0:04:03阅读更多 →
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

1. 项目概述&#xff1a;为什么X-Frame-Options是Web安全的“防盗门”&#xff1f;最近在排查一个老项目的安全审计报告时&#xff0c;又被提到了“点击劫持”风险&#xff0c;矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了&#xff0c;很多开发团队&#xff0c;尤…

2026/6/27 0:04:03阅读更多 →