深度学习_算法

type

summary

status

梯度下降算法

Gradient descent algorithm

ref

拟合出样本分布的表达式

优化算法：缩小损失函数值，最小化损失函数值

学习率epsilon，ε ；人为设定得值，为梯度下降的步长；设置目的是为了更快的找到损失函数值收敛的正确方向

梯度：向量，指向函数增长最快的方向（与导数建立关系），梯度的值就是该方向上函数增长的速率（有多陡峭）

梯度下降：利用求到的梯度，取其负梯度方向，用学习率ε控制步长，下降到新的位置（期望的更贴近实际样本的位置）

优化

随机梯度下降

因为受条件限制：计算内存占用高，损失函数值迭代速度慢

实质：每次迭代，随机取不重复部分样本，进行计算

适用场景：样本方差小时，噪声影响小，最后的收敛趋向是正确的

动量随机梯度下降

起因：随机时，如果是处于波谷段，会来回震荡，函数值会延缓甚至无法收敛

本质：向量加法：下降的 = 原始计算的 + 保留的历史下降的一部分（即“动量”）

起效：会再下降时起到阻尼的作用，减缓损失函数值的迭代，使收敛路径更加平滑

学习率算法

老的：

Adagrad算法

RMSProp算法

动量+学习率双重优化算法

Adam算法（2014）

自适应动量

反向传播算法

Backpropagation Algorithm

ref

倒着通过偏导方程，每退一步，求一步参数，倒到最开始，求出梯度值，遂更新为最新的梯度值。

起加速作用

激活函数

前题

变量经过函数线性变换，最后的关系仍然是线性的，哪怕已经成为了网络；

解决非线性问题的方法：变换关系由线性变为非线性 f

这个非线性的f，类似于神经元的处理，即树突接受信号，轴突内外电荷数量发生变化，引起动作电压，激活整个神经元，继续向后传导。所以被称为 激活函数

f的必要特征：

连续可导，对应反向传播中对y求偏导
定义域是实数，保持数值稳定，映射所有实数
单调递增的S型曲线，对应输入状态跟y正相关

如果在设定初始f时，并没有很充足的条件对比不同函数之间的实际效果优劣，那我这里有个直觉，就是这些曲线的取值可能在最终的拟合效果中取到不小的权重，有必要尝试一些不同的函数，特别是那种在诸多现象中存在但仍为黑箱的合理函数。

函数

sigmoid函数

ref

tanh函数

ref

ReLU函数（Rectified Linear Unit）

ref

稀疏性：动态开启关闭神经元，信息耦合程度低

输入改动小，神经元改变少：神经元状态的改变数量与输入信息的参数改动程度大小正相关
从而，支持不同维度和中间层维度的特征学习
其本身，线性可分或弱线性可分，可以降低网络训练难度
稀疏，但被激活的输出仍然保持了原有的表达能力

问题：

非零均值：影响网络的收敛效果；可用输出归一化解决
没有上界：梯度累计超出计算上限导致梯度爆炸，参数初始化，重新设计网络结构可以解决
稀疏性：一些神经元始终无法激活，即神经元坏死

解决：Leaky ReLU（2013）函数，在ReLU函数的负半轴增加一个小梯度；

解决2：Parametric ReLU（2015）函数，就是把leaky的固定梯度0.01改为动态的变量α；可以根据是否保留稀疏性或抑制神经的单元的训练反馈动态调整

总结

几个阶段

ref