卷积神经网络简介

仿真资料吧

2025年2月15日 21:46

卷积神经网络（CNN）是计算机视觉中常用的一种深度学习神经网络架构。计算机视觉是人工智能的一个领域，它使计算机能够理解和解释图像或视觉数据。

在机器学习方面，人工神经网络表现非常出色。神经网络用于各种数据集，如图像、音频和文本。不同类型的神经网络用于不同的目的，例如，为了预测单词序列，我们使用循环神经网络，更准确地说是 LSTM，同样，对于图像分类，我们使用卷积神经网络。在本博客中，我们将为 CNN 构建一个基本构建块。

神经网络：层和功能

在常规神经网络中，有三种类型的层：

Input Layers（输入层）：这是我们为模型提供输入的层。该层中的神经元数量等于我们数据中的特征总数（图像中的像素数）。
隐藏层：然后，来自 Input 层的输入被馈送到隐藏层中。根据我们的模型和数据大小，可以有许多隐藏层。每个隐藏层可以有不同数量的神经元，这些神经元通常大于特征的数量。每一层的输出是通过矩阵乘前一层的输出与该层的可学习权重，然后加上可学习偏差，然后是激活函数来计算的，这使得网络非线性。
输出层：然后将隐藏层的输出馈送到 sigmoid 或 softmax 等 logistic 函数中，该函数将每个类的输出转换为每个类的概率分数。

将数据输入模型并从上述步骤获得每一层的输出称为前馈，然后我们使用误差函数计算误差，一些常见的误差函数是交叉熵、平方损失误差等。error 函数用于测量网络的性能。之后，我们通过计算导数来反向传播到模型中。此步骤称为 Backpropagation ，基本上用于最小化损失。

卷积神经网络

卷积神经网络（CNN）是人工神经网络（ANN）的扩展版本，主要用于从网格状矩阵数据集中提取特征。例如，数据模式起着广泛作用的图像或视频等视觉数据集。

CNN 架构

卷积神经网络由多个层组成，如输入层、卷积层、池化层和全连接层。

max

编辑

简单的 CNN 架构

卷积层对输入图像应用过滤器以提取特征，池化层对图像进行下采样以减少计算，全连接层进行最终预测。网络通过反向传播和梯度下降来学习最佳滤波器。

卷积层是如何工作的？

卷积神经网络或 covnet 是共享其参数的神经网络。假设您有一张图片。它可以表示为具有长度、宽度（图像的尺寸）和高度（即图像通常具有红色、绿色和蓝色通道的通道）的长方体。

cnn-2-300x133

编辑

现在想象一下，从这张图片中获取一小块，并运行一个小型神经网络，称为过滤器或内核，其中包含 K 个输出，并垂直表示它们。现在在整个图像上滑动该神经网络，结果，我们将得到另一个具有不同宽度、高度和深度的图像。现在，我们不仅有 R、G 和 B 通道，而且有更多的通道，但宽度和高度更小。此作称为 卷积。如果补丁大小与图像的大小相同，它将是一个常规神经网络。由于这个小块，我们的权重较少。

Screenshot-from-2017-08-15-13-55-59-300x217

编辑

图片来源： Deep Learning Udacity

卷积的数学概述

现在让我们谈谈整个卷积过程中涉及的一些数学运算。

卷积层由一组可学习的滤波器（或内核）组成，这些滤波器的宽度和高度较小，深度与输入体积的深度相同（如果输入层是图像输入，则为 3）。
例如，如果我们必须对尺寸为 34x34x3 的图像运行卷积。滤镜的可能大小可以是 axax3，其中 'a' 可以是 3、5 或 7 之类的大小，但与图像尺寸相比更小。
在前向传递期间，我们逐步在整个输入体积上滑动每个滤波器，其中每个步骤称为步幅（对于高维图像，该值可以是 2、3 甚至 4），并从输入体积计算内核权重和补丁之间的点积。
当我们滑动过滤器时，我们将获得每个过滤器的 2-D 输出，我们将它们堆叠在一起，因此，我们将得到深度等于过滤器数量的输出体积。网络将学习所有过滤器。

用于构建 ConvNet 的层

完整的卷积神经网络架构也称为 covnet。covnets 是一系列层，每一层都通过可微函数将一个体积转换为另一个体积。
图层类型：数据集
让我们以对尺寸为 32 x 32 x 3 的图像运行 covnets 为例。

Input Layers（输入层）：这是我们为模型提供输入的层。在 CNN 中，通常输入将是一张图像或一系列图像。此图层包含宽度为 32、高度为 32 和深度为 3 的图像的原始输入。
卷积层：这是用于从输入数据集中提取特征的层。它将一组称为内核的可学习过滤器应用于输入图像。过滤器/内核是较小的基质，通常为 2×2、3×3 或 5×5 形状。它在输入图像数据上滑动，并计算 Kernel Weight 和相应的 Input Image Patch 之间的点积。该层的输出称为特征图。假设我们在这个层总共使用 12 个滤波器，我们将得到一个维度为 32 x 32 x 12 的输出体积。
激活层：通过将激活函数添加到前一层的输出中，激活层为网络增加了非线性。它将对卷积层的输出应用元素激活函数。一些常见的激活函数有 RELU：max（0， x）、Tanh、Leaky RELU 等。体积保持不变，因此输出体积的尺寸为 32 x 32 x 12。
池化层：该层定期插入 covnet 中，其主要功能是减小卷的大小，从而使计算更快，减少内存，还可以防止过拟合。两种常见的池化层类型是 max 池化和平均池化。如果我们使用具有 2 x 2 个过滤器且步幅为 2 的最大池，则生成的体积将为 16x16x12 的维度。