简介 :如果是对Computer Vision有所了解的同学应该都不会对LeNet-5陌生,这篇由LeCun和Bengio在1998年(我竟然还没出生)撰写的论文着实牛掰。实际上LeNet-5的诞生还要早(大约是1994年)。LeNet-5基本上为CNN在2012年以后的爆发奠定了基调。当然除了LeNet-5还有LeNet-1、LeNet-4等网络结构,在原始论文中也作为比较提到。
背景 :当初LeNet-5的设计主要是为了解决手写识别问题。那时传统的识别方案很多特征都是hand-crafted,识别的准确率很大程度上受制于所设计的特征,而且最大的问题在于手动设计特征对领域性先验知识的要求很高还耗时耗力,更别谈什么泛化能力,基本上只能针对特定领域。
稍微有一点computer vision经验的人都不会对下面这张图陌生,这张图是LeCun在原始论文中po的一张结构图,很直观能get到LeNet-5的结构。但是原始论文的操作手法和现在的大多数人的implementation稍微不同,这里针对每一层做一个阐释。
原论文中的损失函数采用MSE,并添加了一个惩罚项(后文查看 为什么要添加惩罚项 ),计算公式为: 右边这个对数部分就是惩罚项,且小于等于左边。但实际上现在很多对于LeNet-5的实现是没有这一部分的,因为效果不明显。
关于标准化和归一化,网上有的博客是混用的,这个我都接受,毕竟英文翻译都是normalization,但是有人怎么会把正则化和这两个搞混???正则化完全不同,英文是regularization,这里按下不表。个人认为归一化和标准化只是方法上的区别,这两者都是数据缩放的方法,本质都是一种 线性变换 ,但是标准化特指将数据缩放为均值为0,方差为1的区间(z-score normalization/Standardization)。而归一化有Rescaling、Mean normalization、Scaling to unit length三种不同的选择,方法不同,目的一致。但是这两者还是稍有差别,具体表现在归一化的方法直接是根据极值进行缩放到 ,易受极值影响。而标准化是根据方差进行数据缩放平移,数据范围可能是 ,也就是会考虑数据分布特征,更适合对于噪声和异常值的处理。
但……我还是没说normalization到底有什么用? 这里祭出Andrew Ng的图:
所以总结一下normalization作用就是更容易 正确收敛 !
这里这个权重和偏置很有意思,大多数初学者可能都没有考虑过,你细品,这 难道不就是初中的 ???套了件马甲就不认识了?一次函数在高等数学里应该是一条直线,能够用直线区分的两个类别被称为线性可分,但是有这么一个问题,如果非要用线性去解决线性不可分问题呢???
这里就是为什么要用w作为权重,w是决定那个分离超平面的方向所在。b就是对该平面的移动,如果没有b,所有的分离超平面都过原点。
对于输入图像(或者特征图)大小为input_size,给定kernel_size、padding、stride,计算得出output_size为: 该公式既适用于卷积过程,也适用于池化过程。
根据Occam's Razor原理: 如无必要,勿增实体 。在机器学习过程中,我们希望训练得到的是泛化能力强的模型,然鹅生活中越简洁、抽象的对象越容易描述,越具体、复杂、明显就越不容易描述区分,描述区分的泛化能力就越不好。问题来了:如何控制这个复杂度?通常的做法是在损失函数后面加上一个正则惩罚项: 没有加上正则项的部分叫做 经验风险 ,加上正则项的损失函数叫做 结构风险 ,结构风险多的 这一部分叫做penalty(惩罚项),惩罚项常用的是 或者 范数。惩罚项的意思就是通过计算权重绝对值的均值加上一个权重因子 作为重视程度,也叫做惩罚系数。
结构风险通过通过惩罚项控制模型复杂程度,降低过拟合并提高泛化能力。
由于笔者本身能力有限,文章内容和文字可能出现一些错误,欢迎各位批评指正,共同讨论,共同学习。