type
summary
status
category
tags
slug
date
password
icon
状态
子标签
标签
日期
Jan 13, 2026 08:03 AM
CONTENT
梯度下降算法
Gradient descent algorithm
ref

拟合出样本分布的表达式
优化算法:缩小损失函数值,最小化损失函数值
- 学习率epsilon,ε ;人为设定得值,为梯度下降的步长;设置目的是为了更快的找到损失函数值收敛的正确方向
- 梯度:向量,指向函数增长最快的方向(与导数建立关系),梯度的值就是该方向上函数增长的速率(有多陡峭)
- 梯度下降:利用求到的梯度,取其负梯度方向,用学习率ε控制步长,下降到新的位置(期望的更贴近实际样本的位置)
优化
随机梯度下降
- 因为受条件限制:计算内存占用高,损失函数值迭代速度慢
- 实质:每次迭代,随机取不重复部分样本,进行计算
- 适用场景:样本方差小时,噪声影响小,最后的收敛趋向是正确的
动量随机梯度下降
- 起因:随机时,如果是处于波谷段,会来回震荡,函数值会延缓甚至无法收敛
- 本质:向量加法:下降的 = 原始计算的 + 保留的历史下降的一部分(即“动量”)
- 起效:会再下降时起到阻尼的作用,减缓损失函数值的迭代,使收敛路径更加平滑
学习率算法
老的:
Adagrad算法
RMSProp算法
动量+学习率双重优化算法
Adam算法(2014)
自适应动量
反向传播算法
Backpropagation Algorithm
ref

倒着通过偏导方程,每退一步,求一步参数,倒到最开始,求出梯度值,遂更新为最新的梯度值。
起加速作用
激活函数
前题
- 变量经过函数线性变换,最后的关系仍然是线性的,哪怕已经成为了网络;
- 解决非线性问题的方法:变换关系由线性变为非线性 f
- 这个非线性的f,类似于神经元的处理,即树突接受信号,轴突内外电荷数量发生变化,引起动作电压,激活整个神经元,继续向后传导。所以被称为 激活函数
- f的必要特征:
- 连续可导,对应反向传播中对y求偏导
- 定义域是 实数,保持数值稳定,映射所有实数
- 单调递增的S型曲线,对应输入状态跟y正相关
如果在设定初始f时,并没有很充足的条件对比不同函数之间的实际效果优劣,那我这里有个直觉,就是这些曲线的取值可能在最终的拟合效果中取到不小的权重,有必要尝试一些不同的函数,特别是那种在诸多现象中存在但仍为黑箱的合理函数。
函数
- sigmoid函数
ref

- tanh函数
ref

ReLU函数(Rectified Linear Unit)
ref

- 稀疏性:动态开启关闭神经元,信息耦合程度低
- 输入改动小,神经元改变少:神经元状态的改变数量与输入信息的参数改动程度大小正相关
- 从而,支持不同维度和中间层维度的特征学习
- 其本身,线性可分或弱线性可分,可以降低网络训练难度
- 稀疏,但被激活的输出仍然保持了原有的表达能力
- 问题:
- 非零均值:影响网络的收敛效果;可用输出归一化解决
- 没有上界:梯度累计超出计算上限导致梯度爆炸,参数初始化,重新设计网络结构可以解决
- 稀疏性:一些神经元始终无法激活,即神经元坏死
- 解决:Leaky ReLU(2013)函数,在ReLU函数的负半轴增加一个小梯度;
- 解决2:Parametric ReLU(2015)函数,就是把leaky的固定梯度0.01改为动态的变量α;可以根据是否保留稀疏性或抑制神经的单元的训练反馈动态调整
总结
几个阶段
ref

参数初始化
- Author:Frank
- URL:https://blog.fqqblog.com/article/2e7bd4d9-052e-813f-8f95-d730730fc4e0
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

深度学习_算法