本文分类:news发布日期:2026/1/18 20:34:12
打赏

相关文章

2. 训练 vs 推理:真正烧钱的是哪一步

作者:HOS(安全风信子) 日期:2026-01-17 来源平台:GitHub 摘要: 2026年,AI行业的成本结构已经发生根本性转变。本文通过云厂商真实数据揭示,推理的累计成本已超过训练10倍以上,成为真正烧钱的环节…

为什么所有主流LLM都使用SwiGLU?

本文的目标是解释为什么现代LLM架构在前馈部分使用 SwiGLU作为激活函数并且已经放弃了 ReLU。 神经网络本质上是一系列矩阵乘法,如果我们堆叠线性层而不使用任何激活函数: 无论你堆叠多少层,它仍然只是一个线性变换,网络只能学…

3. OpenAI / DeepSeek 推理系统演进史

作者:HOS(安全风信子) 日期:2026-01-17 来源平台:GitHub 摘要: 本文深入回顾了OpenAI与DeepSeek两大AI巨头的推理架构演进历程,从早期简单API到如今分布式MoE系统,提取了关键技术教训。通过分析OpenAI的扩展…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部