小默说AI(21)强化学习前菜——让模型学会“奖励与惩罚“
强化学习前菜——让模型学会"奖励与惩罚"上集我们讲了微调,让模型从基础课走向专业课。但有一个前提条件:需要有"标准答案"。生活中有很多任务没有唯一正确答案,这时候就该强化学习登场了。强化学习(Reinforcement Learning)是机器学习的三大范式之一,与监督学习、无监督学习并列。如果说监督学习是"老师告诉你对错",那强化学习就是"走对了鼓掌,走错了扶一下,模型自己慢慢学会"。它不需要标准答案,只给奖励信号,让模型通过试错来学习如何做出最优决策。今天这集,小默带你搞懂强化学习的核心概念:智能体、环境、奖励信号和策略梯度,为后续学习RLHF和PPO算法打下基础。一、从监督学习到强化学习:两种范式的根本区别要理解强化学习,最直接的方式是与监督学习做对比。监督学习的核心逻辑是:给出标准答案,让模型学习"正确的输出"。在分类任务中,我们给模型带标签的数据,告诉它每条数据属于哪个类别。在指令微调中,我们给出指令和对应的期望回答,让模型学会如何按照指令生成文本。监督学习的关键特征是:训练数据中每一条样本都有明确的、唯一的正确答案。这就像老师批改作业——老师告诉你每一步怎么写,答案是什么。模型通过最小化预测输出与标准答案之间的差距来学习,目标函数通常是交叉熵损失或均方误差。但很多现实任务并不具备这个条件。想象一个对话系统。用户说"给我讲个笑话",模型需要生成一个有趣的回应。什么样的回答算"好"?什么样的算"不好"?这没有唯一的标准答案。再比如,设计一个游戏AI。它需要在复杂的环境中学会策略来赢得比赛。游戏没有告诉它"每一步应该怎么走",它需要通过不断尝试,根据最终的结果来判断哪些策略是好的。这就是强化学习的用武之地。强化学习不给标准答案,只给奖励信号。走对了鼓掌,走错了扶一下,模型自己慢慢学会。核心区别总结:监督学习学"正确答案",强化学习追求"做得更好"。二、强化学习的四大核心要素强化学习有一套完整的形式化框架,包含四个核心要素:智能体(Agent)、环境(Environment)、状态(State)、动作(Action),以及贯穿其中的奖励信号(Reward)。智能体(Agent)是做出决策的主体。在对话场景中,智能体就是大语言模型本身。它负责观察环境的状态,并基于当前策略选择动作。环境(Environment)是智能体交互的外部世界。在对话场景中,环境包括用户的输入、对话的历史上下文,以及用户反馈(点赞、评分等)。状态(State)是当前环境的状况。在对话场景中,状态可以理解为当前的对话上下文——包括之前

相关新闻

完整学习LLM(六):上下文窗口是什么,为什么模型会忘东西

完整学习LLM(六):上下文窗口是什么,为什么模型会忘东西

请根据这份部署文档,告诉我 battle monitor 怎么上线. RAG 检索到了 5 段资料.历史对话里还有我前面问过的问题.系统提示词里还写着回答规则.这些东西最后都要放到哪里?答案就是:放进上下文窗口. 所以今天这篇就专门聊一个很基础,但很容易误解的概念:上下文窗口是什么? 为什么…

2026/6/28 3:28:17阅读更多 →
unity 源码 左右移动吃金币 躲避障碍 念单词游戏 SourceCode

unity 源码 左右移动吃金币 躲避障碍 念单词游戏 SourceCode

https://download.csdn.net/download/weixin_71802416/93036782

2026/6/28 3:28:17阅读更多 →
为三种OpenAI客户端创建IChatClient对象

为三种OpenAI客户端创建IChatClient对象

penAIClient和AzureOpenAIClient是一个与OpenAI的API进行交互的客户端,我们可以指定模型名称调用其GetChatClient方法来获取一个对应的ChatClient对象。虽然名字雷同,但是这个ChatClient类型可没有实现IChatClient接口,我们需要调用为它定义的…

2026/6/28 3:28:17阅读更多 →
UnityUI中使用中文文本

UnityUI中使用中文文本

生成支持中文的.asset文件找到支持中文的字体,如:Windows 系统自带:C:\Windows\Fonts\simhei.ttf(黑体)、msyh.ttf(微软雅黑)导入Unity(导入的字体文件)选中刚导入的字体文件 → 右键 → Create…

2026/6/28 5:03:22阅读更多 →
基于大数据爬虫+Hadoop+深度学习的商品管理系统

基于大数据爬虫+Hadoop+深度学习的商品管理系统

选题背景 在数字经济浪潮席卷全球的今天,电子商务已成为驱动经济增长的核心引擎之一。海量的商品数据以前所未有的速度在互联网上生成、流动与沉淀,构成了一个庞大而复杂的数字商业生态。然而,面对如此浩瀚的数据海洋,传统的商品信…

2026/6/28 5:03:22阅读更多 →
将正在运行的 shell 进程从当前终端剥离,并重新挂载到新的 screen 会话中

将正在运行的 shell 进程从当前终端剥离,并重新挂载到新的 screen 会话中

别再担心 VPN 连接断开导致远程任务被杀掉了。你可以通过分离 screen 会话并在稍后重新连接,以安全可控的方式从笔记本电脑或台式机连接到远程服务器工作。 如何将正在运行的任务从当前 shell 会话中剥离? 有几种方法可以实现这一点。最简单且最常用的方式可能是将进程放入…

2026/6/28 5:03:22阅读更多 →
BSC链空窗期黑马:Crypto Lifeline低门槛办公室经营链游

BSC链空窗期黑马:Crypto Lifeline低门槛办公室经营链游

时隔一段时间,链游板块再度受到关注。目前Solana链上有几款链游表现活跃,单个游戏日内在线人数可达数千人,其龙头代币Kins市值峰值曾突破2000万美元,在短时间内吸引了较多玩家参与,链游叙事重新成为市场讨论点之一。随…

2026/6/28 5:03:22阅读更多 →
2026年蚌埠家电清洗培训公司盘点涵盖各类信息整理

2026年蚌埠家电清洗培训公司盘点涵盖各类信息整理

导语在当今注重生活品质的时代,家电清洗服务的需求日益增长,专业的家电清洗培训公司也如雨后春笋般涌现。2026年蚌埠地区的家电清洗培训公司为有兴趣投身这一行业的人提供了学习机会。小绿人家电清洗培训作为行业内较知名的品牌,以其独特的教…

2026/6/28 5:03:22阅读更多 →
unity 2d 平调跳跃 小游戏 源码 免费开源

unity 2d 平调跳跃 小游戏 源码 免费开源

【免费】unity2d平调跳跃小游戏源码免费开源资源-CSDN下载

2026/6/28 4:58:21阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →