Abstarct

  • 将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分类为1000个不同的类别
  • 该神经网络具有6000万个参数和65万个神经元
  • 由五个卷积层和三个完全连接层组成,其中一些卷积层之后是最大值池化层,三个完全连接层后有一个最终的1000路Softmax
  • 为了减少过拟合,采用了“drop ouut”的正则化方法

Introduction

最终的网络包含5个卷积层和3个完全连通层,这个深度似乎很重要:我们发现删除任何卷积层(每个层包含的模型参数不超过1%)都会导致性能下降

Architecture

Relu:tanh(x)

双GPU训练

局部响应归一化

1

前5层是卷积的,其余3层是全连接的。最后一个全连接层的输出被送到1000路Softmax,其在1000个类别标签上产生分布。我们的网络最大化多项Logistic回归目标,这等价于最大化预测分布下正确标签的对数概率的跨训练案例的平均值。第二、第四和第五卷积层的内核仅连接到上一层中驻留在同一GPU上的内核映射(参见图2)。第三卷积层的核连接到第二层中的所有核映射。全连接层中的神经元连接到前一层中的所有神经元。响应归一化层位于第一、第二卷积层之后。第3.4节中描述的那种最大池化层既在响应归一化层之后,也在第五卷积层之后。将RELU非线性应用于每一卷积层和全连接层的输出。

第一卷积层以4像素(这是相邻接收场中心之间的距离)对具有96个大小为11×11×3的核的224×224×3输入图像进行滤波。第二卷积层将第一卷积层的(响应归一化和汇集)输出作为输入,并用256个大小为5×5×48的核对其进行滤波。第三卷积层、第四卷积层和第五卷积层彼此连接,而没有任何中间的合并层或归一化层。第三卷积层具有大小为3×3×256的384个核,连接到第二卷积层的(归一化的、汇集的)输出。第四卷积层具有大小为3×3×192的384个核,而第五卷积层具有大小为3×3×192的256个核。全连接层的每一层都有4096个神经元。

Data Augmentation

  1. 生成图像平移和水平反射
  2. 改变训练图像中的RGB通道的强度。在整个ImageNet训练集中对RGB像素值集合执行PCA。对于每个训练图像,我们将找到的主分量的倍数相加,幅值正比于相应的特征值乘以从具有平均零和标准偏差0.1的高斯中提取的随机变量。对于每个RGB图像像素Ixy=[IR xy,IG xy,IB xy]T,添加以下数量:

2

pi和λi分别是rgb像素值的3×3协方差矩阵的特征向量和特征值,并且αi是前述随机变量。

Dropout

在测试时,使用所有的神经元,但是将它们的输出乘以0.5

Details of learning

batch size :128 examples

momentum:0.9

weight decay:0.0005

用常数初始化了第二、第四和第五卷积层以及完全连接的隐藏层中的神经元偏置。这种初始化通过向ReLU提供正输入来加速学习的早期阶段。

用常数0初始化剩余层中的神经元偏置。

对所有层使用相同的学习率,并在整个培训过程中手动调整。

遵循的启发式方法是,当验证错误率随当前学习率停止提高时,将学习率除以10。学习速率初始为0.01,终止前降低3次。

通过120万张图像的训练集对网络进行了大约90个周期的训练

Result

3

4

Discussion

结果表明,一个大型的深度卷积神经网络能够在具有高度挑战性的数据集上使用纯监督学习实现破纪录的结果。但

如果去掉单个卷积层,网络性能就会下降。例如,删除任何中间层都会导致网络的TOP-1性能损失约2%。

我们希望在视频序列上使用非常大和深度的卷积网络,其中时间结构提供了非常有用的信息,这些信息在静态图像中缺失或远不明显。