当前位置: 首页 > news >正文

pytorch对不同的可调参数,分配不同的学习率

在 PyTorch 中,你可以通过为优化器传递不同的学习率来针对不同的可调参数分配不同的学习率。这通常通过向优化器传递一个字典列表来实现,其中每个字典指定特定参数组的学习率。下面是一个示例代码,展示了如何实现这一点:

import torch
import torch.optim as optim# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 将这些参数分配给不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},{'params': param2, 'lr': 0.001}
], lr=0.01, momentum=0.9)# 模拟一次训练步骤
loss = (param1.sum() + param2.sum()) ** 2
loss.backward()
optimizer.step()# 打印更新后的参数值
print(param1)
print(param2)

对于余弦退火算法中,对于可调的学习率,pytorch对不同的可调参数,分配不同的学习率权重

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 为每个参数组分配不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},{'params': param2, 'lr': 0.001}
], lr=0.01, momentum=0.9)# 为整个优化器设置余弦退火调度器
scheduler = CosineAnnealingLR(optimizer, T_max=10, eta_min=0.0001)# 模拟一个训练周期
for epoch in range(10):# 执行优化步骤loss = (param1.sum() + param2.sum()) ** 2loss.backward()optimizer.step()# 更新学习率scheduler.step()# 打印当前学习率for i, param_group in enumerate(optimizer.param_groups):print(f'Epoch {epoch+1}, Param Group {i+1}: Learning Rate = {param_group["lr"]}')

两个参数先后优化,第一阶段主要优化param1,后一阶段主要优化param2

方法1:分阶段调整优化器的参数组
你可以在第一阶段只优化 param1,然后在第二阶段只优化 param2。这可以通过在不同阶段将 param1 或 param2 从优化器中移除或冻结(将学习率设置为 0)来实现。

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 第一阶段:仅优化 param1
optimizer1 = optim.SGD([{'params': param1, 'lr': 0.01}], momentum=0.9)
scheduler1 = CosineAnnealingLR(optimizer1, T_max=5, eta_min=0.0001)# 第二阶段:仅优化 param2
optimizer2 = optim.SGD([{'params': param2, 'lr': 0.001}], momentum=0.9)
scheduler2 = CosineAnnealingLR(optimizer2, T_max=5, eta_min=0.0001)# 模拟训练
for epoch in range(10):# 第一阶段:前5个epoch优化param1if epoch < 5:optimizer1.zero_grad()loss = (param1.sum()) ** 2loss.backward()optimizer1.step()scheduler1.step()print(f'Epoch {epoch+1}: Optimizing param1, LR = {scheduler1.get_last_lr()}')# 第二阶段:后5个epoch优化param2else:optimizer2.zero_grad()loss = (param2.sum()) ** 2loss.backward()optimizer2.step()scheduler2.step()print(f'Epoch {epoch+1}: Optimizing param2, LR = {scheduler2.get_last_lr()}')

方法2:同时设置不同的学习率,但不同阶段侧重不同的参数
在这个方法中,你可以在第一阶段为 param1 设置较大的学习率,param2 设置为非常小的学习率(几乎不变)。然后在第二阶段反过来。

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 同时优化param1和param2,但不同阶段有不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},  # param1初始学习率较大{'params': param2, 'lr': 0.0001}  # param2初始学习率较小
], momentum=0.9)scheduler = CosineAnnealingLR(optimizer, T_max=10, eta_min=0.00001)# 模拟训练
for epoch in range(10):optimizer.zero_grad()# 计算损失loss = (param1.sum() + param2.sum()) ** 2loss.backward()optimizer.step()scheduler.step()# 不同阶段调整学习率if epoch == 5:optimizer.param_groups[0]['lr'] = 0.0001  # param1 学习率降低optimizer.param_groups[1]['lr'] = 0.01    # param2 学习率增大# 打印学习率print(f'Epoch {epoch+1}: LR for param1 = {optimizer.param_groups[0]["lr"]}, LR for param2 = {optimizer.param_groups[1]["lr"]}')

http://www.mrgr.cn/news/20586.html

相关文章:

  • c# Csv文件读写示例,如果文件存在追加写入
  • Word封面对齐技巧
  • 【PyQt6 应用程序】解说+原声视频混剪无显卡精简版,无显卡可用
  • 每日OJ_牛客_解读密码(简单模拟)
  • QT教程:start()和startTimer()的区别
  • 基于Java+SpringBoot+Vue的新闻稿件管理系统
  • 8. 如何在MyBatis中实现动态SQL?动态SQL有什么用?常见的动态SQL标签有哪些?
  • [数据集][目标检测]电梯内广告牌电动车检测数据集VOC+YOLO格式2787张4类别
  • 【CSS渐变】背景中的百分比:深入理解`linear-gradient`,进度条填充
  • s3c2440---PWM使用之蜂鸣器驱动移植
  • iOS——Block与内存管理
  • 单调队列(专项复习)
  • 2024年高教杯国赛(B题)数学建模竞赛解题思路|完整代码论文集合
  • 旅行商问题 | Matlab基于混合粒子群算法GA-PSO的旅行商问题TSP
  • Mysql运行原理
  • Java 入门指南:Java 并发编程 ——自定义 Java 线程池
  • Linux-(系统启动、用户管理)
  • show命令监控分析mysql实例信息
  • 【FreeRTOS】内存管理
  • 内存管理篇-22 高端内存和低端内存的分界线