人工神经网络（Artificial Neural Networks，简称ANNs）的激活函数-5

仿真资料吧

2024年10月13日 11:30

神经网络中的激活函数-5

建议在阅读本文之前先了解神经网络。

在构建神经网络的过程中，您需要做出的选择之一是在隐藏层和网络的输出层使用什么激活函数。本文讨论了神经网络中的激活函数。

• 什么是激活函数？

• 神经网络的元素

• 为什么我们需要非线性激活函数？

• 激活函数的变体

•  线性函数

•  Sigmoid 函数

•  Tanh 功能

•  RELU 函数

•  Softmax 功能

• 什么是激活函数？

神经网络上下文中的激活函数是应用于神经元输出的数学函数。激活函数的目的是在模型中引入非线性，允许网络学习和表示数据中的复杂模式。如果没有非线性，神经网络的行为基本上就像线性回归模型，无论它有多少层。

激活函数通过计算加权和并进一步为其添加偏差来决定是否应该激活神经元。激活函数的目的是将非线性引入神经元的输出中。

解释：我们知道，神经网络的神经元与权重、偏差和它们各自的激活函数相对应。在神经网络中，我们将根据输出处的误差更新神经元的权重和偏差。此过程称为反向传播。激活函数使反向传播成为可能，因为梯度与更新权重和偏差的误差一起提供。

• 神经网络的元素

Input Layer：此层接受输入特征。它从外部世界向网络提供信息，这一层不进行计算，这里的节点只是将信息（特征）传递给隐藏层。

隐藏层：该层的节点不暴露在外部世界，它们是任何神经网络提供的抽象的一部分。隐藏层对通过输入层输入的特征执行各种计算，并将结果传输到输出层。

Output Layer：该层将网络学习到的信息带到外部世界。

• 为什么我们需要非线性激活函数？

没有激活函数的神经网络本质上只是一个线性回归模型。激活函数对输入进行非线性变换，使其能够学习和执行更复杂的任务。

• 数学证明

假设我们有一个这样的神经网络：-

人工神经网络（Artificial Neural Networks，简称ANNs）的激活函数-5的图1

该图的元素如下：

隐藏层，即第1层：

z（1） = W（1）X + b（1） a（1）

这里:

• z（1）是第 1 层的矢量化输出

• W（1）是分配给隐藏层神经元的矢量化权重，即 w1、w2、w3 和 w4

• X 是矢量化的输入特征，即 i1 和 i2

• b 是分配给隐藏层中神经元的矢量化偏差，即 b1 和 b2

• a（1）是任何线性函数的矢量化形式。

(注意：我们在这里不考虑激活函数）

第 2 层，即输出层：

注：第 2 层的输入是从第 1 层输出的

z（2） = W（2）a（1） + b（2）

a（2） = z（2）

输出层的计算

z（2） = （W（2） * [W（1）X + b（1）]） + b（2）

z（2） = [W（2） * W（1）] * X + [W（2）*b（1） + b（2）]

让

[W（2） * W（1）] = W

[W（2）*b（1） + b（2）] = b

最终输出： z（2） = W*X + b

这又是一个线性函数

即使在应用隐藏层之后，这一观察结果也会再次产生线性函数，因此我们可以得出结论，无论我们在神经网络中附加多少个隐藏层，所有层的行为都是相同的，因为两个线性函数的组成本身就是一个线性函数。神经元不能只用一个线性函数来学习。非线性激活函数将让它根据w.r.t误差的差异进行学习。因此，我们需要一个激活函数。

• 激活函数的变体

• 线性函数

• 方程：线性函数的方程类似于直线的方程，即y = x

• 无论我们有多少层，如果本质上都是线性的，那么最后一层的最终激活函数只不过是第一层输入的线性函数。

• 范围：-inf 到 +inf

• 用途：线性激活函数只在一个地方使用，即输出层。

• 问题：如果我们对线性函数进行微分以带来非线性，结果将不再依赖于输入 “x”，函数将变得恒定，它不会为我们的算法引入任何突破性的行为。

例如：房屋价格的计算是一个回归问题。房价可能具有任何大/小的值，因此我们可以在输出层应用线性激活。即使在这种情况下，神经网络在隐藏层也必须具有任何非线性函数。

Sigmoid函数

人工神经网络（Artificial Neural Networks，简称ANNs）的激活函数-5的图2