完整学习LLM(二):大模型到底是什么
这个问题看起来简单.但真要说清楚,其实不容易.因为它很容易被讲得特别玄.比如有人会说它在思考.也有人会说它只是概率接龙.这两个说法都有一点道理,但如果只记这两句话,还是很难落到项目里.所以这篇我想换一个角度:先不急着讲论文.先拿普通程序和大模型对比一下.看看它到底和我们平时写的代码有什么不一样.0.背景:我一开始把它想简单了刚开始用 ChatGPT 的时候,我其实很自然地把它当成一个更聪明的搜索框.我问:Docker 怎么部署 Go 后端?RAG 是什么?这个错误怎么解决?它回答得很顺.所以很容易产生一种错觉:大模型 一个知识很多的问答系统但后面写 RAG 的时候,我发现这个理解不够.因为如果大模型真的是一个知识库,那它应该能精确查资料.但它不能.如果大模型真的是一个数据库,那我问:筛选出所有攻击力大于 50 的装备它应该像 SQL 一样稳定.但它也不适合直接干这个.所以我开始意识到:大模型不是数据库.大模型也不是搜索引擎.它更像一个基于上下文生成文本的模型.这句话听起来有点抽象.我们慢慢拆.1.普通程序是怎么工作的先看我们熟悉的普通程序.比如写一个简单的规则:def check_attack(power: int) - str:if power 50:return 高攻击装备return 普通装备这个程序的特点很明确:规则是人写死的.输入一样,输出基本一样.程序不会自己发挥.它不理解什么叫强.它只知道:power 50满足条件就返回高攻击装备.不满足就返回普通装备.这种程序很可靠.只要规则写对,它就会按规则执行.但它的问题也很明显:规则没写到的地方,它就不会.比如你问它:这件装备适合刺客还是战士?如果代码里没有写职业判断逻辑,它就回答不了.普通程序更像这样:输入- 人写好的规则- 按步骤执行- 输出2.大模型不是按 if else 在回答大模型不一样.你问它:这件装备攻击力 60,暴击率 20%,适合什么角色?它不是在代码里找一个固定的 if else.它更像是在看这段文本:攻击力 60暴击率 20%适合什么角色然后根据训练中学到的语言规律,项目知识,上下文线索,去生成一个最可能接得上的回答.流程大概是:用户输入- 切成 token- 进入模型计算- 预测下一个 token- 再预测下一个 token- 拼成完整回答注意这里最关键的是:它不是一次性吐出整篇答案.它是一点点生成的.比如回答:这件装备更适合刺客.对模型来说,它不是一下子把这句话拿出来.而是类似这样:这这件这件装备这件装备更这件装备更适合这件装备更适合刺客当然真实过程不是按中文词这样切,而是按 token.但先这样理解就够了.3.那大到底大在哪里LLM 里面的 L 是 Large.这个大,不是说它脾气大.而是几个东西都很大:参数量大训练数据大计算量大上下文处理能力越来越大参数可以先粗暴理解成:模型内部学到的调节旋钮.普通程序里,规则是人写的.大模型里,很多能力不是人一条条写进去的,而是通过大量文本训练出来的.训练时,模型不断做一件事:给它前面的文本,让它预测后面应该出现什么.预测错了,就调整参数.调整很多很多次以后,它就慢慢学会了一些东西:语法常识代码格式问答方式文章结构不同概念之间的关系所以它看起来像会回答问题.但底层更接近:根据上下文,生成最合理的后续文本.4.为什么它能回答很多没见过的问题这个地方很容易误解.有人会觉得:模型回答出来了,说明它训练时见过原文.不一定.大模型不是简单背书.它确实可能记住一部分训练内容,但更重要的是,它学到了大量语言模式和知识关系.比如它学过很多类似内容:Docker 用来打包应用Nginx 可以做反向代理PostgreSQL 是关系型数据库Go 可以写后端服务当你问:Go 后端怎么用 Docker 部署?它就能把这些模式组合起来,生成一个看起来合理的方案.这也是它强的地方.它不是只能回答固定问题.它可以组合.但这也是它危险的地方.因为它组合出来的东西,不一定就是你项目里的真实情况.比如它可能会编一个端口:服务运行在 8080 端口.但你的项目实际可能是:服务运行在 8888 端口.这时候它不是故意骗你.它只是根据常见模式生成了一个看起来合理的答案.这就是为什么后面需要 RAG.因为项目事实不能只靠模型自己猜.5.一句话理解大模型如果先不追求严谨,我现在会这样理解 LLM:LLM 是一个经过大量文本训练后,能够根据上下文不断预测下一个 token,最终生成自然语言、代码、结构化内容的模型.这句话里面有几个关键词.第一个:大量文本训练说明它的能力来自训练数据和训练过程.第二个:上下文说明你给它什么信息,会直接影响它怎么回答.第三个:预测下一个 token说明它的生成过程不是查表,而是一步步续写.第四个:生成说明它擅长的是组织答案,解释内容,改写文本,写代码,总结材料.但它不是天然适合做所有事.6.它适合什么,不适合什么大模型适合做什么?我现在会先列这些:解释概念总结文档改写表达生成代码草稿根据上下文组织答案把零散信息整理成结构这些任务都有一个共同点:不是只要一个精确值.而是需要理解、组织、表达.那它不适合什么?比如:精确筛选数据库记录严格计算金额判断权限是否允许直接当唯一事实来源在没有资料时回答项目内部细节这些事情不是不能和大模型结合.而是不能只靠大模型.比如:

相关新闻

编程技能地图:一张定位认知断层的能力导航图

编程技能地图:一张定位认知断层的能力导航图

1. 这不是“技能清单”,而是一张能让你少走三年弯路的编程能力导航图很多人学编程卡在“学了就忘、用了就懵、面试答不出”的死循环里——不是不努力,是根本没搞清自己到底缺哪块拼图。我带过三十多个转行学员,几乎所有人第一次画出自己的Ski…

2026/6/23 10:23:31阅读更多 →
小程序商城制作一个需要多少钱

小程序商城制作一个需要多少钱

小程序商城制作一个需要多少钱制作一个小程序商城,报价差距往往来自交付范围。只做一个能打开的商城,和把商品、规格、支付、会员、活动、数据、客服入口都配置到能用,是两种完全不同的工作量。成本型问题要先拆成四块:搭建费、系…

2026/6/23 10:23:31阅读更多 →
MySQL知识点

MySQL知识点

MySQL知识点 一、数据库基础理论(选择/填空/简答高频) 1. 核心概念 DB(数据库):长期存储在计算机中、有组织、可共享的数据集合。DBMS(数据库管理系统):操纵和管理数据库的系统软件&…

2026/6/23 10:23:31阅读更多 →
轻集料混凝土哪家强?LC5.0型厂家这样选才靠谱

轻集料混凝土哪家强?LC5.0型厂家这样选才靠谱

“垫层又要轻又要强,怎么选?”这句话背后,是无数项目经理和采购人员在面对卫生间回填、屋面找坡、地下室垫层等场景时的真实困惑。轻集料混凝土作为一种轻质高强的材料,近年来越来越受到建筑工程的青睐,尤其是LC5.0型这…

2026/6/23 11:49:03阅读更多 →
AScript定制left/right join查询语法

AScript定制left/right join查询语法

left join 标准LINQ查询的左连接写法如下: 1 from p in context.Persons 2 join a in context.AddressInfos on p.Id equals a.UserId into aa 3 from a in aa.DefaultIfEmpty() 4 select new { p.Id, p.Name, p.Age, MyAddress a.Address }; 简化后的left join…

2026/6/23 11:49:03阅读更多 →
2026AI命理软件好用吗?八字排盘App辅助分析要看依据和边界

2026AI命理软件好用吗?八字排盘App辅助分析要看依据和边界

# 2026AI命理软件好用吗?八字排盘App辅助分析要看依据和边界摘要:2026 年讨论 AI 命理软件好不好用,不能只看回答是否流畅,更要看它是否围绕具体盘面给出依据、是否能说明规则前提、是否允许用户追问复核,以及是否避免…

2026/6/23 11:49:03阅读更多 →
科技文明视域下宗教的历史合理性与消亡必然性 —— 基于矢量光速螺旋时空归一化体系的统一论证

科技文明视域下宗教的历史合理性与消亡必然性 —— 基于矢量光速螺旋时空归一化体系的统一论证

科技文明视域下宗教的历史合理性与消亡必然性 —— 基于矢量光速螺旋时空归一化体系的统一论证作者:计立伟 身份:独立研究学者 所在地:中国 广东 深圳 邮箱:jlwlive.cn ORCID:0009-0006-6363-8468 完成日期&#xff1a…

2026/6/23 11:49:03阅读更多 →
每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

引言 “12 条生产流水线、52 个工具、500 Agent Skill——把你的 AI 编程助手变成完整的视频制作工作室。” 这是"每日一个开源项目"系列的第138篇文章。今天的主角是 OpenMontage——一个开源的 Agentic 视频生产系统,用 Claude Code、Cursor 或 Codex 作…

2026/6/23 11:49:03阅读更多 →
电商支付资损风险防控测试实战:从优惠叠加漏洞到大促零故障的完整路径

电商支付资损风险防控测试实战:从优惠叠加漏洞到大促零故障的完整路径

作者:李李李李某人 | 软件测试工程师本文基于实际电商项目经验,分享如何在支付模块测试中前置拦截资损风险,覆盖优惠叠加、支付中断、异常恢复等高危场景,并结合大促压测保障系统稳定性。一、背景与挑战1.1 电商支付的特殊性电商支…

2026/6/23 11:44:03阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/23 1:55:32阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流…

2026/6/23 0:00:38阅读更多 →
2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

模块一:行业背景——百亿赛道爆发,北京市场的特殊性与选型困局2026年,电子沙盘行业已走过“要不要做”的讨论,进入“找谁做、怎么做”的深水区。据行业研究机构数据,2025年国内电子沙盘市场规模已突破85亿元&#xff0…

2026/6/23 0:00:38阅读更多 →
音视频场景下的 Java 开发者面试:技术与挑战

音视频场景下的 Java 开发者面试:技术与挑战

面试互联网大厂:从音视频场景看 Java 开发者的技能与挑战 在互联网大厂求职的面试中,Java 开发者往往需要面对严苛的技术问题。今天,我们将通过一位名叫燕双非的搞笑程序员与严肃的面试官之间的对话,看看在音视频场景下&#xff0…

2026/6/23 0:00:38阅读更多 →