常见激活函数之ReLU激活函数
ReLU是目前深度学习中最常用、最基础的激活函数广泛用于卷积神经网络CNN和全连接层中。1. 数学公式ReLU 的数学表达式非常简单ReLU(x)max⁡(0,x) \text{ReLU}(x) \max(0, x)ReLU(x)max(0,x)也就是说当输入x0x 0x0时输出等于输入xxx。当输入x≤0x \le 0x≤0时输出等于000。2. 几何特征与性质输出范围[0,∞)[0, \infty)[0,∞)。形状在坐标系中它是一条在原点处“折断”的折线。左半部分贴着 x 轴y0右半部分是一条斜率为 1 的直线yx。非线性虽然它看起来像线性函数但因为在x0x0x0处的拐折它整体是非线性的。这一点至关重要正是这个非线性使得神经网络能够学习复杂的非线性映射。如果它完全是线性的那么多层神经网络叠加起来依然等效于单层失去了深度的意义。3. 导数梯度在反向传播中ReLU 的导数同样极其简单ReLU′(x){1,x00,x≤0 \text{ReLU}(x) \begin{cases} 1, x 0 \\ 0, x \le 0 \end{cases}ReLU′(x){1,0,​x0x≤0​当x0x 0x0时梯度恒为1。当x≤0x \le 0x≤0时梯度为0。(注在x0x0x0处严格来说是不可导的但在代码实现中通常将其归为 0 或 1不影响实际训练。结尾专门有补充这部分的内容)4. ReLU 的变体为了解决“死亡 ReLU”为了克服死亡 ReLU 和非零中心化的问题人们提出了许多 ReLU 的变体Leaky ReLU带泄漏的 ReLU公式f(x){x,x0αx,x≤0f(x) \begin{cases} x, x 0 \\ \alpha x, x \le 0 \end{cases}f(x){x,αx,​x0x≤0​α\alphaα通常是一个很小的常数如 0.01。作用在负区间引入一个微小的斜率使得负区间也有梯度彻底解决死亡 ReLU 问题。PReLU (Parametric ReLU)把 Leaky ReLU 里的α\alphaα当作一个可学习的参数让网络自己训练出最佳的负区间斜率。RReLU (Randomized ReLU)在训练时随机采样负斜率如α∼U(0.01,0.3)增加模型鲁棒性。ELU (Exponential Linear Unit)负区间使用指数函数平滑过渡到−1-1−1输出均值更接近 0缓解了非零中心化问题但计算包含了指数稍慢。GELU / Swish更现代的平滑激活函数目前在 Transformer如 GPT、BERT中极为常见性能优于传统 ReLU。5. 常见应用场景CNN卷积神经网络的隐藏层几乎所有现代 CNN如 ResNet, VGG, YOLO的卷积层后都默认使用 ReLU。MLP多层感知机的隐藏层深度全连接网络的标配。注通常不会在输出层使用 ReLU因为输出层通常有特定的任务需求如分类用 Softmax回归用线性或 tanh。扩展问题既然ReLU 在 0 处不可导为什么还能使用尽管ReLU在 ( x 0 ) 处不可导但在实际训练中不影响使用因为实际训练中某个神经元的输入为 0 的概率极低即使偶尔碰到也可以通过工程上的约定来处理【即在实现反向传播时我们通常会约定 ReLU 在 x0 处的导数为 0 或 1这种约定对结果无影响】。

相关新闻

第9课:GDB 实用调试技巧(下)

第9课:GDB 实用调试技巧(下)

本节课的核心内容:多线程下禁止线程切换条件断点使用 GDB 调试多进程程序10.1 多线程下禁止线程切换假设现在有 5 个线程,除了主线程,工作线程都是下面这样的一个函数:void thread_proc(void* arg) {//代码行1//代码行2//代码行3/…

2026/6/28 3:18:16阅读更多 →
Java开发者必看:从HttpClient到Spring AI,大模型应用开发全攻略!

Java开发者必看:从HttpClient到Spring AI,大模型应用开发全攻略!

一、从基础开始:用HttpClient直接调用大模型 在Java中调用大模型,最直接、最简单的方式是什么? 没错,就是使用HTTP客户端。因为大模型通常都提供了RESTful API,我们可以直接通过发送HTTP请求来调用它们。 我们以阿里…

2026/6/28 3:18:16阅读更多 →
设计模式之策略模式Python实现

设计模式之策略模式Python实现

一、引言 在软件开发中,我们经常会遇到这样的场景:一个业务逻辑需要根据不同的情况采用不同的算法或行为。例如,电商系统中根据用户等级计算折扣、文件压缩时选择不同的压缩算法、支付时选择不同的支付渠道…… 如果将这些算法硬编码在同一个类中,不仅会导致类庞大臃肿,还…

2026/6/28 3:13:16阅读更多 →
自动售货机放哪里最合适?6大热门场景分析~YH

自动售货机放哪里最合适?6大热门场景分析~YH

很多人以为随便找个地方放一台自动售货机就能运转起来,其实场地选择直接决定了机器的使用率和寿命。今天给大家盘点一下最适合放自动售货机的6大场景,以及每个场景需要注意的要点。学校场景学校是比较稳定的场景,师生群体固定,消费…

2026/6/28 6:23:26阅读更多 →
奥特LM2576系列—赋能多领域电源解决方案

奥特LM2576系列—赋能多领域电源解决方案

在电子设备高度普及的今天,电源管理芯片作为设备的“心脏”,直接决定了产品的稳定性、能效与使用寿命。奥特深耕电子元器件领域多年,推出LM2576系列降压开关稳压器,结合奥特严苛的品质管控体系,将高效、稳定、便捷三大…

2026/6/28 6:23:26阅读更多 →
超热岩地热:藏在地下5公里的“无限能源“,能否拯救全球气候危机?

超热岩地热:藏在地下5公里的“无限能源“,能否拯救全球气候危机?

一、为什么我们需要"更地热"的地热?提到地热,大多数人想到的是冰岛蓝湖温泉或云南腾冲的热海。这些传统地热电站依赖天然存在的热水层,但问题是:它们太稀缺了。全球适合传统地热开发的区域极为有限,且单个资…

2026/6/28 6:23:26阅读更多 →
VLAN间通信深度科普:VLAN隔离如何互通?三种主流实现方式详解

VLAN间通信深度科普:VLAN隔离如何互通?三种主流实现方式详解

在前两篇组网科普中,我们讲解了VLAN虚拟局域网的隔离作用、STP生成树的防环机制,以及链路聚合的提速容错能力。很多组网从业者在掌握VLAN划分后,都会遇到一个核心问题:VLAN天然二层隔离,不同VLAN默认无法互通。 我们划…

2026/6/28 6:23:26阅读更多 →
车载监控终端技术解构

车载监控终端技术解构

在现代物流、公共交通和车队管理中,车载远程监控终端已成为不可或缺的核心设备。它像车辆的“黑匣子”与“通信官”的结合体,持续采集、上传车辆状态,并接收远程指令。本文将从硬件架构、核心功能到实际应用,系统性地解析这一设备…

2026/6/28 6:23:26阅读更多 →
自动售货机商品如何定价?新手必看的定价思路~YH

自动售货机商品如何定价?新手必看的定价思路~YH

商品定价是自动售货机运营里很重要的环节,定高了卖不动,定低了又浪费利润空间。今天不聊赚多少钱,纯分享几个定价的参考思路。参考市场同类价格这是最基础的定价依据。去看看附近便利店、超市同类商品卖多少钱,自动售货机的价格通…

2026/6/28 6:18:26阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →