当前位置：首页 > news >正文

优化理论及应用精解【24】

news 2025/8/25 21:26:27

文章目录

优化
- RMSProp（Root Mean Square Propagation）
- - 定义
  - 性质
  - 公式
  - 数学原理与推导
  - 例子和例题
  - - 例子
    - 例题
- Adam
- - Adam的定义
  - Adam的性质
  - Adam的公式
  - Adam的数学原理与推导
  - Adam的例子和例题
  - - 例子
    - 例题
- 矩估计
- - 定义
  - 性质
  - 公式
  - 数学原理
  - 定理和推导
  - 例子和例题
  - - 例子
    - 例题
参考文献

优化

RMSProp（Root Mean Square Propagation）

是一种自适应学习率的优化算法，主要用于深度学习中的参数更新。以下是对其定义、性质、公式、数学原理、推导以及例子的详细解释：

定义

RMSProp是一种优化算法，旨在解决Adagrad算法在深度学习训练过程中学习率逐渐减小直至无法进一步学习的问题。它通过引入一个衰减系数来解决这个问题，使得历史信息能够指数级衰减，从而避免了学习率持续下降的问题。RMSProp的核心思想是对每个参数使用不同的学习率，这些学习率是根据参数的最近梯度大小自适应调整的。

性质

自适应学习率：RMSProp通过考虑最近的梯度大小来自适应地调整每个参数的学习率，避免了全局学习率带来的一些问题。
解决Adagrad的缺陷：通过引入衰减因子，RMSProp解决了Adagrad学习率持续下降直至消失的问题。
超参数依赖：RMSProp的效果在很大程度上依赖于衰减因子等超参数的选择。
适用场景：RMSProp特别适合处理非凸优化和深度学习中的大规模问题，但并不保证在所有问题上都是最优的。

公式

RMSProp的更新公式如下：

计算梯度平方的移动平均：

$E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2$

其中， $E[g^2]_t$ 是第t次迭代的梯度平方的移动平均， $\beta$ 是衰减率（通常取值在0到1之间，如0.9）， $g_t$ 是第t次迭代的梯度。

更新参数：

$\theta_t = \theta_{t-1} - \frac{\alpha}{\sqrt{E[g^2]_t + \epsilon}} g_t$

其中， $\theta_t$ 是第t次迭代的参数， $\alpha$ 是学习率， $\epsilon$ 是一个小常数（如 $10^{-8}$ ），用于防止除零错误。

数学原理与推导

RMSProp的数学原理基于梯度平方的指数加权移动平均来调整学习率。具体来说，它会对每个参数的历史梯度进行平方并加权平均，从而确定一个适应的学习率。这样，在存在陡峭方向时更新较小，而在平坦方向时更新较大，能够更有效地更新参数。

推导过程大致如下：

计算当前梯度的平方。
使用衰减系数更新梯度平方的移动平均。
根据移动平均和当前梯度计算新的参数值。

例子和例题

例子

假设我们有一个简单的线性回归问题，要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。假设初始参数为 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ ，衰减率 $\beta = 0.9$ ，并且初始化梯度平方的移动平均 $E[g^2]_0 = 0$ 。

对于第一个样本 $x_1, y_1) = (1, 2)$ ，模型预测值为0，计算损失函数对参数的梯度：

$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_1 = 0 - 2 = -2$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_1) x_1 = -2 \cdot 1 = -2$

然后更新梯度平方的移动平均和参数：

$E[g^2]_1 = \beta E[g^2]_0 + (1 - \beta) g_1^2 = 0.9 \times 0 + 0.1 \times (-2)^2 = 0.4$
$\theta_0 = \theta_0 - \frac{\alpha}{\sqrt{E[g^2]_1 + \epsilon}} g_1 \approx 0.01$
$\theta_1 = \theta_1 - \frac{\alpha}{\sqrt{E[g^2]_1 + \epsilon}} g_1 \approx 0.01$

例题

问题：使用RMSProp算法最小化一个简单的二次函数 $y = ax^2 + bx + c$ 。

步骤：

初始化参数 $\theta$ （包含a, b, c）、学习率 $\alpha$ 、衰减率 $\beta$ 和梯度平方的移动平均 $E[g^2]$ 。
对于每个训练样本，计算预测值、损失函数和梯度。
更新梯度平方的移动平均。
使用RMSProp更新规则更新参数。
重复步骤2-4直到收敛。

通过这个过程，RMSProp算法能够根据历史梯度的平方根自适应地调整学习率，从而有效地最小化损失函数。

Adam

Adam的定义

Adam（Adaptive Moment Estimation）是一种结合了动量（Momentum）和自适应学习率调整的优化算法，它能够在深度学习模型的训练中更快地收敛并且对超参数的选择相对不那么敏感。Adam算法结合了RMSProp和动量优化的优点，具体来说，它维护了两个动态调整的学习率：一个是基于梯度一阶矩估计的动量项，另一个是基于梯度二阶矩估计（类似于RMSProp）的自适应学习率。

Adam的性质

自适应学习率：Adam算法通过计算梯度的一阶矩估计和二阶矩估计，为每个参数动态调整学习率。
动量项：Adam引入了动量项，有助于加速收敛并减少震荡。
偏差校正：为了纠正初始化时的偏差，Adam算法对一阶矩估计和二阶矩估计进行了偏差校正。
广泛适用性：Adam算法适用于各种类型和规模的深度学习模型，是深度学习中最常用的优化算法之一。

Adam的公式

Adam算法的具体公式如下：

一阶矩估计（动量项）的更新：

$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$

其中， $m_t$ 表示第t次迭代时的一阶矩估计， $\beta_1$ 是一阶矩估计的指数衰减率（通常接近1，如0.9）， $g_t$ 是第t次迭代的梯度。

二阶矩估计（类似于RMSProp）的更新：

$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$

其中， $v_t$ 表示第t次迭代时的二阶矩估计， $\beta_2$ 是二阶矩估计的指数衰减率（通常接近1，如0.999）， $g_t^2$ 是第t次迭代的梯度平方。

偏差校正：

$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$

$\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$

其中， $\hat{m}_t$ 和 $\hat{v}_t$ 分别是偏差校正后的一阶矩估计和二阶矩估计。

参数更新：

$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \epsilon} \hat{m}_t$

其中， $\theta_{t+1}$ 表示更新后的参数， $\eta$ 是学习率， $\epsilon$ 是一个很小的数（通常设置为 $10^{-8}$ ），用于防止除零错误。

Adam的数学原理与推导

Adam算法的数学原理基于梯度的一阶矩估计和二阶矩估计来动态调整学习率。一阶矩估计类似于动量法，有助于加速收敛并减少震荡；二阶矩估计类似于RMSProp算法，能够自适应地调整学习率。通过计算这两个矩估计并进行偏差校正，Adam算法能够在训练过程中为每个参数动态地调整学习率，从而实现快速收敛和稳定训练。

具体的推导过程可以从梯度下降法开始，逐步引入动量项和自适应学习率的概念，最终推导出Adam算法的更新公式。这个过程涉及到对梯度的一阶矩和二阶矩的估计、偏差校正以及参数更新的计算。

Adam的例子和例题

例子

假设我们有一个简单的二次函数 $f(x) = x^2$ ，我们要使用Adam算法来最小化这个函数。首先，我们初始化参数 $x = 0$ ，一阶矩估计 $m_0=0$ ，二阶矩估计 $v_0=0$ ，学习率 $\eta=0.1$ ，衰减率 $\beta_1=0.9$ ， $\beta_2=0.999$ ，以及一个很小的数 $\epsilon=10^{-8}$ 。