本文分类:news发布日期:2026/1/7 9:57:59
打赏

相关文章

NEFTune:加入噪声的嵌入提升指令微调效果

摘要 我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集…

航天任务指令生成:Qwen3Guard-Gen-8B确保术语绝对精确

航天任务指令生成:Qwen3Guard-Gen-8B确保术语绝对精确 在航天任务控制中心,一条看似简单的指令——“启动轨道重启程序”——可能隐藏着致命歧义。是进入新轨道?还是执行紧急变轨?抑或是故障恢复操作?在地面与卫星通信…

Qwen3Guard-Gen-8B模型部署教程:一键推理.sh脚本使用详解

Qwen3Guard-Gen-8B 模型部署与安全治理实践 在生成式 AI 应用迅速渗透各行各业的今天,内容安全已成为悬在开发者头顶的“达摩克利斯之剑”。一个看似无害的对话助手,可能因一次不当输出引发舆论危机;一款面向全球用户的社交产品,也…

CGPO:完美融合—用评审混合机制重塑RLHF

强化学习人类反馈(Reinforcement learning from human feedback,RLHF)已成为微调大语言模型(LLM)的主流方法。然而,RLHF在多任务学习(MTL)中存在局限性,原因在于奖励操纵(reward hacking)问题以及极端的多目标优化(即多个甚至有时相互冲突的目标之间的权衡)带来的…

手机版浏览

扫一扫体验

微信公众账号

微信扫一扫加关注

返回
顶部