LeNet5

LeNet5有3个卷积层,2个池化层,2个全连接层。卷积层的卷积核都为5*5,stride=1,池化层都为Max pooling,激活函数为Sigmoid

LeNet5

AlexNet

2012年,Imagenet比赛冠军—Alexnet 刷新了ImageNet的识别率,奠定了深度学习在图像识别领域的优势地位。

AlexNet

总结:

1.网络比LeNet更深,包括5个卷积层和3个全连接层。

2.使用relu激活函数,收敛很快,解决了Sigmoid在网络较深时出现的梯度弥散问题。

3.加入了dropout层,防止过拟合。

4.使用了LRN归一化层,对局部神经元的活动创建竞争机制,抑制反馈较小的神经元放大反应大的神经元,增强了模型的泛化能力。

5.使用裁剪翻转等操作做数据增强,增强了模型的泛化能力。预测时使用提取图片四个角加中间五个位置并进行左右翻转一共十幅图片的方法求取平均值,这也是后面刷比赛的基本使用技巧。

6.分块训练,当年的GPU没有这么强大,Alexnet创新地将图像分为上下两块分别训练,然后在全连接层合并在一起。

7.总体的数据参数大概为240M。

VGG

VGGNet主要的贡献是利用带有很小卷积核(3*3)的网络结构对逐渐加深的网络进行评估,结果表明通过加深网络深度至16-19层可以极大地改进前人的网络结构。这些发现也是参加2014年ImageNet比赛的基础,并且在这次比赛中,分别在定位和分类跟踪任务中取得第一名和第二名。

VGG

VGG16,也就是图中的类型D。如图中所示,共有13个卷积层,3个全连接层。其全部采用3x3卷积核,步长为1,和2x2最大池化核,步长为2。

总结:

  1. 共包含参数约为550M。

  2. 全部使用33的卷积核和22的最大池化核。

  3. 简化了卷积神经网络的结构。

Summary

LeNet5是早期用于工程应用的网络结构,发展到AlexNet,激活函数从sigmoid变为relu,加入了Dropout层等操作,引起了新一轮的深度学习热潮。VGG基本是AlexNet的加强版,深度上是其2倍,参数量大小也是两倍多。

这三个网络结构本质上都是(卷积+池化)堆叠的网络结构,是深度学习复兴以来的第一个有重大工程意义的网络设计系列。