Lazy loaded image
技术分享
Lazy loaded image深度学习_算法
Words 1130Read Time 3 min
2025-6-29
2026-1-13
type
summary
status
category
tags
slug
date
password
icon
状态
子标签
标签
日期
Jan 13, 2026 08:03 AM
CONTENT
 

梯度下降算法

Gradient descent algorithm
ref
notion image
拟合出样本分布的表达式
优化算法:缩小损失函数值,最小化损失函数值
  1. 学习率epsilon,ε ;人为设定得值,为梯度下降的步长;设置目的是为了更快的找到损失函数值收敛的正确方向
  1. 梯度:向量,指向函数增长最快的方向(与导数建立关系),梯度的值就是该方向上函数增长的速率(有多陡峭)
  1. 梯度下降:利用求到的梯度,取其负梯度方向,用学习率ε控制步长,下降到新的位置(期望的更贴近实际样本的位置)
 

优化

随机梯度下降

  1. 因为受条件限制:计算内存占用高,损失函数值迭代速度慢
  1. 实质:每次迭代,随机取不重复部分样本,进行计算
  1. 适用场景:样本方差小时,噪声影响小,最后的收敛趋向是正确的
 

动量随机梯度下降

  1. 起因:随机时,如果是处于波谷段,会来回震荡,函数值会延缓甚至无法收敛
  1. 本质:向量加法:下降的 = 原始计算的 + 保留的历史下降的一部分(即“动量”)
  1. 起效:会再下降时起到阻尼的作用,减缓损失函数值的迭代,使收敛路径更加平滑
 
 

学习率算法

老的:
Adagrad算法
RMSProp算法
 

动量+学习率双重优化算法

Adam算法(2014)
自适应动量
 
 
 
 
 
 

 

反向传播算法

Backpropagation Algorithm
ref
notion image
倒着通过偏导方程,每退一步,求一步参数,倒到最开始,求出梯度值,遂更新为最新的梯度值。
起加速作用
 
 
 
 
 
 
 
 

 

激活函数

前题

  1. 变量经过函数线性变换,最后的关系仍然是线性的,哪怕已经成为了网络;
  1. 解决非线性问题的方法:变换关系由线性变为非线性 f
  1. 这个非线性的f,类似于神经元的处理,即树突接受信号,轴突内外电荷数量发生变化,引起动作电压,激活整个神经元,继续向后传导。所以被称为 激活函数
  1. f的必要特征:
    1. 连续可导,对应反向传播中对y求偏导
    2. 定义域是 实数,保持数值稳定,映射所有实数
    3. 单调递增的S型曲线,对应输入状态跟y正相关
    4. 如果在设定初始f时,并没有很充足的条件对比不同函数之间的实际效果优劣,那我这里有个直觉,就是这些曲线的取值可能在最终的拟合效果中取到不小的权重,有必要尝试一些不同的函数,特别是那种在诸多现象中存在但仍为黑箱的合理函数。
       

函数

  1. sigmoid函数
    1. ref
      notion image
  1. tanh函数
    1. ref
      notion image
 

ReLU函数(Rectified Linear Unit)

ref
notion image
  1. 稀疏性:动态开启关闭神经元,信息耦合程度低
    1. 输入改动小,神经元改变少:神经元状态的改变数量与输入信息的参数改动程度大小正相关
    2. 从而,支持不同维度和中间层维度的特征学习
    3. 其本身,线性可分或弱线性可分,可以降低网络训练难度
    4. 稀疏,但被激活的输出仍然保持了原有的表达能力
  1. 问题:
    1. 非零均值:影响网络的收敛效果;可用输出归一化解决
    2. 没有上界:梯度累计超出计算上限导致梯度爆炸,参数初始化,重新设计网络结构可以解决
    3. 稀疏性:一些神经元始终无法激活,即神经元坏死
      1. 解决:Leaky ReLU(2013)函数,在ReLU函数的负半轴增加一个小梯度;
        1. 解决2:Parametric ReLU(2015)函数,就是把leaky的固定梯度0.01改为动态的变量α;可以根据是否保留稀疏性或抑制神经的单元的训练反馈动态调整
 

总结

几个阶段
ref
notion image
 
 
 
 
 

 

参数初始化

 
 
 
 
 
 
 
 
 

 
 
 
上一篇
RAG
下一篇
Knowledge Graph