2026寒假集训第二周周记录

本文分类：news发布日期：2026/1/25 18:39:04

模型量化是将高位宽参数(如Float32)转换为低位宽(如INT8、INT4)的技术，旨在压缩模型、提升推理速度并降低内存占用。主要分为PTQ(后训练量化)和QAT(量化感知训练)两种方式，可通过均匀/非均匀量化和不同粒度实现。针对大模型，权重量化、激活值…

建站知识 2026/1/25 18:39:04

生命的二元张力：弗洛伊德生的本能与死的本能理论解析在经典精神分析理论体系中，西格蒙德弗洛伊德（Sigmund Freud）晚年提出的“生的本能”（Eros）与“死的本能”（Thanatos）二元理论&…

建站知识 2026/1/25 18:38:56

文章系统介绍了多模态融合技术的演进历程，从早期融合、晚期融合到Transformer时代的深度交互，再到当前主流的连接器范式和前沿的原生融合技术。详细分析了不同融合方法的优缺点、适用场景及工程实现，包括模态对齐、幻觉等常见问题的解决方案&…

建站知识 2026/1/25 18:38:46

大模型训练分为预训练、微调和对齐三阶段。预阶段使用TB级数据学习通用语言能力；微调阶段通过GB级高质量数据增强指令遵循能力；对齐阶段确保输出符合人类价值观，遵循3H原则。三者共同构成完整的大模型开发流程，从知识压缩到任务适…

建站知识 2026/1/25 18:38:08

本文分享了作者在大模型岗位的完整面试经历，涵盖一面至三面的面试过程和问题，包括Transformer结构、BERT与GPT区别、LoRA原理等大模型核心知识点，以及算法题和职业规划问题。作者拥有图神经网络背景，成功通过面试并分享了实战经验…

建站知识 2026/1/25 18:37:50

本文详细介绍了一个包含8个章节的Transformer模型讲义，从整体框架到具体实现，包括Encoder-Decoder结构、文字向量化、位置编码、多头注意力机制、残差连接与层归一化、前馈神经网络以及模型输出等核心内容。该讲义旨在帮助读者彻底掌握Transformer原理&a…

建站知识 2026/1/25 18:37:11

官网文档：https://v2.tauri.app/learn/system-tray/ 有两种方式可以添加系统托盘，一种是在js中，一种是在rust中，官方都有使用案例，其中要注意： 要记得在配置文件中添加这个特性。这里我记录一下在js中添…

建站知识 2026/1/25 18:36:53

文章探讨了为什么大语言模型需要专门的硬件而非传统CPU。LLM本质上是数学工厂，执行大规模并行矩阵乘法运算。CPU因设计用于逻辑运算和分支决策而不适合处理这种计算密集型任务。GPU通过大规模并行核心和Tensor Core优化矩阵运算，而Google的TPU采用脉动阵…

建站知识 2026/1/25 18:36:50