NingG +

AI 系列: 激活函数 & Softmax 函数

激活函数(Activation Function)是神经网络中的核心组件,它的作用类似于神经元的“开关”或“过滤器”,负责决定神经元是否被激活(即输出信号)、以及激活的程度。以下是详细解释:

一、激活函数的含义与作用

  1. 核心功能:引入非线性
    • 神经网络若只有线性运算(如矩阵乘法),无论叠加多少层,最终等效于一个线性模型,无法学习复杂模式(如曲线、分类边界)。
    • 激活函数对输入进行非线性变换,使神经网络具备拟合任意函数的能力(万能逼近定理)。
      示例: 输入 \(z = w_1x_1 + w_2x_2 + b\) → 输出 \(a = g(z)\)(\(( g )\) 为激活函数)。
  2. 生物启发:模拟神经元激活
    • 名称“激活”源于生物神经元:当输入信号超过阈值时,神经元“放电”(激活);否则静默。
    • 激活函数类似:输入值 ( \(z\) ) 经过函数处理后,决定神经元输出强度(如 ReLU:( \(z>0\) ) 时输出 \(z\),否则输出 0)。
  3. 常见激活函数举例

    函数 公式 特点
    Sigmoid \(\sigma(z) = \frac{1}{1+e^{-z}}\) 输出 [0,1],适合二分类概率
    ReLU \(\text{ReLU}(z) = \max(0, z)\) 计算快,解决梯度消失(但可能有“死神经元”)
    Tanh \(\tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}}\) 输出 [-1,1],中心对称

二、Softmax 函数的本质与名称解析

1. 功能:多分类的概率归一化

\[\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}} \quad (K=\text{类别数})\]

2. 为什么叫 “Softmax”?

3. 物理意义:置信度分布

在分类任务中,Softmax 输出的每个值表示模型对当前样本属于各类别的置信概率
例如:图像分类输出 \([0.9, 0.08, 0.02]\) → 模型 90% 确信是“猫”。

三、激活函数的重要性总结

作用 说明
引入非线性 使神经网络能学习复杂模式(如曲线、决策边界)。
特征空间变换 将输入映射到更高维/可分空间(如 ReLU 的分段线性拟合)。
概率化输出 如 Softmax 将输出转为概率,支持分类决策。
梯度控制 合适的激活函数(如 ReLU)缓解梯度消失/爆炸问题,加速训练。

四、关键理解

一句话总结:激活函数是神经网络的“非线性引擎”,赋予模型解决复杂问题的能力;Softmax 则是多分类任务的“概率转换器”,其“Soft”体现在以概率形式逼近最大值选择。

原文地址:https://ningg.top/ai-series-softmax-intro/
微信公众号 ningg, 联系我

同类文章:

微信搜索: 公众号 ningg, 联系我, 交个朋友.

Top