本文分类:news发布日期:2026/1/1 14:03:10
打赏

相关文章

RL 策略优化 (4.3章节)

网格世界策略评估与策略改进(5 动作) 注:本文参照 《强化学习中的数学原理》一书,4.2章节“策略优化”部分的。 代码借助AI一步步写出,在复现算法过程中,中间结果与书中不一样。 代码大循环迭代17次https://gith…

MMLU评测全流程:如何提交结果并获得排名?

MMLU评测全流程:如何提交结果并获得排名? 在大模型技术飞速发展的今天,一个核心问题始终摆在研究者面前:我们该如何客观、公平地衡量一个模型到底“懂多少”? MMLU(Massive Multitask Language Understan…

从预训练到部署:ms-swift实现大模型全流程闭环

从预训练到部署:ms-swift实现大模型全流程闭环 在今天,一个算法工程师想基于Qwen或Llama微调一个专属客服助手,可能面临的不是“怎么设计模型”,而是“如何把权重下载下来”“显存爆了怎么办”“训完之后怎么上线”。这些看似琐碎…

Batch Normalization原理讲解

原理讲解 如今,在骨干网络中,几乎都会使用到Batch Normalization (BN),比如十分经典的ResNet系列。在我们初学深度学习的时候,最早接触的应该是多层感知机或者卷积神经网络,它们大都没有使用BN。那么为什么现在的…

PyCharm远程调试大模型训练任务?集成开发环境配置技巧

PyCharm远程调试大模型训练任务?集成开发环境配置技巧 在今天的AI工程实践中,一个现实问题摆在每位开发者面前:如何高效调试动辄几十GB显存占用、运行数小时甚至数天的大模型训练任务?传统的“写代码→上传服务器→命令行启动→看…

单机多卡训练最佳实践:充分利用本地GPU资源

单机多卡训练最佳实践:充分利用本地GPU资源 在如今大模型席卷NLP、视觉乃至跨模态任务的时代,动辄百亿、千亿参数的模型已成为常态。然而,真正拥有百卡A100集群的研究者仍是少数——更多开发者面对的是手头那台搭载4张RTX 3090或单台A10的工…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部