从 RNN 到 GPT:大模型架构演化史
网罗开发小红书、快手、视频号同名大家好我是展菲目前在上市企业从事人工智能项目研发管理工作平时热衷于分享各种编程领域的软硬技能知识以及前沿技术包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者《ESP32-C3 物联网工程开发实战》图书作者《SwiftUI 入门进阶与实战》超级个体COC上海社区主理人特约讲师大学讲师谷歌亚马逊分享嘉宾科技博主华为HDE/HDG我的博客内容涵盖广泛主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告同时也会提供产品优缺点分析、横向对比并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。展菲您的前沿技术领航员 大家好我是展菲 全网搜索“展菲”即可纵览我在各大平台的知识足迹。每周定时推送干货满满的技术长文从新兴框架的剖析到运维实战的复盘助您技术进阶之路畅通无阻。文章目录引言一、RNN第一次让 AI 拥有「记忆」二、为什么 RNN 注定会失败三、LSTM给 RNN 加了一块「记忆芯片」四、Transformer真正改变世界的是并行计算五、为什么最终赢的是 GPT而不是 BERT六、MoE参数越来越大成本却越来越低七、AgentAI 正在从模型演变成系统总结AI 架构演化的真正主线引言过去十几年大模型架构几乎每隔几年就会发生一次革命。很多人看到的是RNN ↓ LSTM ↓ Transformer ↓ GPT ↓ MoE ↓ Agent但真正推动这条演化路线的并不是论文而是一个始终没有改变的问题如何让 AI 更好地理解上下文同时以更低的成本完成更复杂的任务回顾整个 AI 架构的发展你会发现每一代模型其实都在解决上一代留下的瓶颈。今天我们就从系统架构的角度回顾这十几年的 AI 架构演化史。一、RNN第一次让 AI 拥有「记忆」在 RNN 出现之前大多数神经网络都是输入 ↓ 计算 ↓ 输出每个词都是独立处理模型根本不知道今天 天气 很好三个词之间存在关联。RNN 引入了 Hidden State把上一时刻的信息传递给下一时刻。整个流程变成Token1 ↓ Hidden State ↓ Token2 ↓ Hidden State ↓ Token3模型第一次拥有了上下文 顺序 短期记忆机器翻译、语音识别等任务因此取得了巨大突破。二、为什么 RNN 注定会失败RNN 最大的问题不是效果而是架构。所有 Token 都必须按顺序计算Token1 ↓ Token2 ↓ Token3无法并行而 GPU 最擅长的是矩阵计算随着模型越来越大GPU 的计算能力越来越强但 RNN 却无法充分利用这些算力。同时Hidden State 还会随着序列变长不断衰减导致经典的问题梯度消失 长期依赖因此RNN 的瓶颈其实不是算法而是计算架构。三、LSTM给 RNN 加了一块「记忆芯片」LSTM 可以理解为升级版 RNN它引入了 Memory Cell并增加Forget Gate Input Gate Output Gate三种门控机制模型终于可以决定哪些信息保留 哪些信息遗忘相比普通 RNNLSTM 能够处理更长的文本也成为 NLP 的主流架构。但遗憾的是它依然保留了 RNN 最大的问题串行计算。GPU 利用率始终提不上来。四、Transformer真正改变世界的是并行计算2017 年《Attention Is All You Need》发布。很多人认为Transformer 最大的创新是 Self-Attention。其实从工程角度来看真正改变 AI 世界的是Transformer 第一次真正拥抱了 GPU。过去Token1 ↓ Token2 ↓ Token3必须依次执行现在所有 Token ↓ 同时进入 Self-Attention ↓ 并行计算训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题还让 GPU 的计算能力得到充分释放。AI 开始进入 Scale Up 时代。五、为什么最终赢的是 GPT而不是 BERTTransformer 发布之后最先爆火的是BERT它采用 Encoder Only 架构理解能力很强。但真正改变行业的是 GPT。原因在于 GPT 采用了 Decoder Only 架构训练目标非常简单预测下一个 Token这种方式更容易扩展参数 扩展数据 扩展算力于是 OpenAI 发现了著名的Scaling Law模型越大数据越多算力越强模型能力几乎持续提升。GPT 真正改变世界的并不是架构而是证明了模型可以通过持续扩大规模不断获得更强能力。六、MoE参数越来越大成本却越来越低随着 GPT 参数不断增长一个新的问题出现了。例如600B 参数每生成一个 Token都需要激活全部参数。推理成本急剧增加于是 MoEMixture of Experts开始流行。它把模型拆成多个 ExpertRouter ↓ Expert 1 Expert 8 Expert 21每次推理只激活少量 Expert。例如671B 参数 ↓ 仅激活 37B模型能力保持增长而推理成本却大幅下降。DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。七、AgentAI 正在从模型演变成系统今天大模型的发展方向已经不再只是更大的参数 更高的分数而是Planner Memory Tool Workflow Runtime越来越多能力开始从模型内部迁移到系统架构。传统 GPTPrompt ↓ LLM ↓ ResponseAgentGoal ↓ Planner ↓ Tool ↓ Memory ↓ LLM ↓ Execution此时大模型更像 CPU。真正负责完成任务的是 Runtime。AI 正在从一个模型演变成一个完整的智能系统。总结AI 架构演化的真正主线如果回顾过去十几年的发展会发现每一次架构升级其实都是为了突破一个工程瓶颈。传统神经网络 │ ▼ RNN解决上下文 │ ▼ LSTM解决长期依赖 │ ▼ Transformer解决并行计算 │ ▼ GPT解决规模扩展 │ ▼ MoE解决推理成本 │ ▼ Agent解决任务执行换句话说AI 架构的发展从来不是简单的技术迭代而是一场围绕记忆、计算、扩展、成本和执行能力展开的持续演进。过去十年行业竞争的是谁的模型更大。未来十年更重要的问题可能变成谁的智能系统效率更高。因为对于下一代 AI 来说Transformer、GPT、MoE 都只是智能的基础组件而真正决定生产力的将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。

相关新闻

高温工况下,温度变送器为什么总是电路板先挂?

高温工况下,温度变送器为什么总是电路板先挂?

做工业测温的都知道一个尴尬事:热电阻Pt100本身能扛到三四百度,可变送器里的电路板,常常在七八十度的环境里就开始飘。从我们弗赛德(FUSIDE)跟客户交流的情况看,窑炉、辊磨、石化反应釜这些场景&#xff0c…

2026/6/26 17:57:47阅读更多 →
Nacos认证绕过漏洞CVE-2021-29441深度剖析与实战复现

Nacos认证绕过漏洞CVE-2021-29441深度剖析与实战复现

1. 项目概述:一次对Nacos认证绕过的深度剖析与实战最近在梳理微服务架构的安全基线时,我又把目光投向了Nacos。作为当前主流的注册与配置中心,它的稳定与安全直接关系到整个微服务体系的命脉。在一次内部红蓝对抗演练的准备过程中&#xff0c…

2026/6/26 17:57:47阅读更多 →
阿里:GD2PO缓解多奖励冲突

阿里:GD2PO缓解多奖励冲突

📖标题:GD2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization 🌐来源:arXiv, 2606.16771v1 🛎️文章简介 🔸研究问题:大模型后训练强化学习中&am…

2026/6/26 17:57:47阅读更多 →
开发者如何打造个人技术IP:从虚拟形象设计到自动化运营全攻略

开发者如何打造个人技术IP:从虚拟形象设计到自动化运营全攻略

1. 项目概述:一个开发者的虚拟形象诞生记“敲代码的小鳄鱼”,这个名字听起来有点萌,又带点技术宅的酷劲儿。它不是一个具体的软件项目,而是一个开发者个人品牌的虚拟形象。在程序员社区、技术博客或者社交媒体上,你或许…

2026/6/26 19:18:10阅读更多 →
理工科写论文熬 3 天排公式?Gradpaper 一键生成规范图表 / 代码,不用第三方工具

理工科写论文熬 3 天排公式?Gradpaper 一键生成规范图表 / 代码,不用第三方工具

gradpaper-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/课程论文。 gradpaper论文智能生成软件,10分钟生成万字毕业论文、期刊论文、文献综述、PPT,Agc查重、降重报告、文献资料。只需一个标题,从开题报告到答辩一键生成软件&…

2026/6/26 19:18:10阅读更多 →
JMeter+Python异步接口测试实战:架构设计与性能优化

JMeter+Python异步接口测试实战:架构设计与性能优化

1. 项目概述:为什么需要JMeterPython的组合拳?做接口测试的朋友,尤其是搞性能压测的,对JMeter肯定不陌生。它是个瑞士军刀,录制、脚本、断言、压测报告一气呵成,对付同步的HTTP接口,比如常见的R…

2026/6/26 19:18:10阅读更多 →
本地可控 AI 数字员工搭建 OpenClaw 全流程安装与故障自查手册【含安装包】

本地可控 AI 数字员工搭建 OpenClaw 全流程安装与故障自查手册【含安装包】

📌前言 经过在多台设备上反复测试OpenClaw的部署流程,我们梳理出端口冲突、模型路径配置错误、组件版本不匹配等典型问题。本文系统性地整理了一套经过验证的完整部署方案,并提供常见问题解决方案,旨在帮助开发者避开重复调试环节…

2026/6/26 19:18:10阅读更多 →
p-adic GL(n)简单超尖表示在二次扩张下的判别准则

p-adic GL(n)简单超尖表示在二次扩张下的判别准则

1. 项目概述:一个数论与表示论交叉的“侦探”问题如果你在数论或自守表示领域摸爬滚打过一段时间,大概率会对“p-adic GL(n)的表示在二次扩张下如何变化”这类问题感到既熟悉又头疼。熟悉,是因为这几乎是现代数论研究的核心场景之一&#xff…

2026/6/26 19:18:10阅读更多 →
测试转大模型:新人上手的关键步骤

测试转大模型:新人上手的关键步骤

聊《测试转大模型:新人上手的关键步骤》之前,先说一句实在的:别急着背概念,先看它在真实项目里到底解决什么问题。摘要本文概述文章目标、核心观点和实践价值。最近很多做传统自动化测试的朋友问我:“我想转大模型方向…

2026/6/26 19:13:09阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/26 4:15:25阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

HPE (慧与) 服务器专用 ESXi 9 全套官方定制资源详解 + 完整部署升级教程

一、前言:企业运维痛点与资源价值自博通收购 VMware 之后,原 VMware 公开免费下载渠道全面关闭,企业运维人员想要获取适配 HPE 慧与服务器的 ESXi 9 原厂镜像,必须注册博通账号、绑定有效授权才能下载,无授权账号无法获…

2026/6/26 0:02:15阅读更多 →
Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin的@JvmStatic与@JvmField:与Java互操作的注解

Kotlin作为一门现代编程语言,与Java的互操作性一直是其核心优势之一。为了让Kotlin代码能够无缝对接Java,Kotlin提供了多种注解来优化互操作体验,其中JvmStatic和JvmField是两个关键注解。它们分别用于解决静态成员和字段在Java中的访问问题&…

2026/6/26 0:02:15阅读更多 →
深入解析musl libc中的mmap实现源码

深入解析musl libc中的mmap实现源码

最近在阅读musl libc源码时,发现其mmap的实现非常精妙,特分享给大家。 一、代码整体结构 这段代码实现了__mmap函数,并通过weak_alias导出为mmap。这是典型的musl libc风格——提供弱符号以便用户可以重写。 weak_alias(__mmap, mmap); 二…

2026/6/26 0:02:15阅读更多 →