当前位置: 首页 > news >正文

PyTorch实现卷积神经网络CNN

一、卷积神经网络CNN

二、代码实现(PyTorch)

1. 导入依赖库

import torch
from torch import nn, optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
  • nn:包含了torch已经准备好的层,激活函数、全连接层等

  • optim:提供了神经网络的一系列优化算法,如 SGD、Adam 等

  • datasets:提供常用的数据集,如 MNIST(本次使用)、CIFAR10/100、ImageNet、COCO 等

  • DataLoder:装载上面提到的数据集

2. 准备数据集

        这里使用MNIST数据集,它是一个大型手写数字数据库(包含0~9十个数字),原始的这两个数据集由128×128像素的黑白图像组成。LeCun等人将其进行归一化和尺寸调整后得到的是28×28的灰度图像。

        MNIST数据集总共包含两个子数据集:一个训练数据集(train_dataset)和一个测试数据集(test_dataset)。它们分别包含了60K和10K的28×28的灰度图像。代码如下:

# 训练集
train_dataset = datasets.MNIST(root='./',train=True,transform=transforms.ToTensor(),  # 数据转换为张量格式download=True)
# 测试集
test_dataset = datasets.MNIST(root='./',train=False,transform=transforms.ToTensor(),download=True)batch_size = 100  # 批次大小
# 装载训练集
train_loader = DataLoader(dataset=train_dataset,batch_size=batch_size,  # 每次加载多少条数据shuffle=True)  # 生成数据前打乱数据 
# 装载测试集
test_loader = DataLoader(dataset=test_dataset,batch_size=batch_size,shuffle=True)

         这里值得注意的是,datasets.s=MNIST() 的参数 download 表示是否下载到参数 root 下的目录。但是实际使用过程中,从 https://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz 下载会出现 403 forbidden 的报错信息。这个不必担心,torch 还会选择其他可用下载链接继续下载。 下载好的数据集应该有如下几个:

或者

3. 构建网络模型

        首先应该清楚,MNIST给到的原始训练集的图像可以表示为(batch_size, 1, 28, 28),其中 batch_size 代表一共加载了多少条数据,这里我之前设置了100;1代表这个训练集的图片是灰度图;两个28则为灰度图的长和宽。

        接下来就可以设计卷积层和池化层。

        设计卷积层时,应该注意第一层的卷积核数量(特征图数量)一般从较小的数值开始,我这里设置了32。因为灰度图的特征还算明显,因此卷积核可以适当减小,缓慢增加感受野,以此提高效率,因此设置为5×5。步长一般设置为1。至于填充几圈0,则可通过图像大小、卷积核大小、步长等推算得知。

        设计池化层时,首先确定池化法,这里选择最大池化法。选择最常用的2×2大小的池化核,它能够将特征图的宽和高减小一半。

        以下是每一层的详细设计思路:

  1. 卷积层1(conv1):先创建一个二维卷积层(Conv2d),然后确定激活函数(ReLU)对卷积层输出的每个值进行非线性变换,最后利用最大池化法(MaxPool)减小特征图尺寸防止过拟合。
  2. 卷积层2(conv2):由卷积层1的输出通道数确定卷积层2的输入通道数,其他不变。
  3. 全连接层1(fc1):使用 Dropout 来控制全连接层的过拟合问题,每次有50%的神经元不使用(只有训练状态下 Dropout 才起作用,测试状态下还是全部神经元工作)。在前向传播时需要注意,应该把卷积层的特征图维数修改为2维。
  4. 全连接层2(fc2):最后将1000个特征图输出为10个数字(0~9)的概率值。这里Softmax不加也行,因为后续在使用交叉熵代价函数(CrossEntropyLoss)时,因为它内部已经包括 Softmax 操作。
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = nn.Sequential(nn.Conv2d(1, 32, 5, 1, 2),  # Conv2d(输入通道数(灰度图),输出通道数(生成多少特征图),卷积核大小(5×5),步长,0填充(填充2圈))nn.ReLU(),nn.MaxPool2d(2, 2)  # MaxPool2d(池化核大小2×2,步长为2))self.conv2 = nn.Sequential(nn.Conv2d(32, 64, 5, 1, 2),nn.ReLU(),nn.MaxPool2d(2, 2)  )self.fc1 = nn.Sequential(nn.Linear(64 * 7 * 7, 1000),  # 将特征压缩为1000维的特征向量nn.Dropout(p=0.5),nn.ReLU())self.fc2 = nn.Sequential(nn.Linear(1000, 10),nn.Softmax(dim=1))def forward(self, x):x = self.conv1(x)  # 特征图(batch_size, 1, 28, 28) -> (batch_size, 32, 14, 14)x = self.conv2(x)  # 特征图(batch_size, 32, 14, 14) -> (batch_size, 64, 7, 7)x = x.view(x.size()[0], -1)  # ([batch_size, 64, 7, 7]) -> (batch_size, 64*7*7)x = self.fc1(x)  # (batch_size, 64*7*7) -> (batch_size, 1000)x = self.fc2(x)  # (batch_size, 1000) -> (1000, 10)return x

4. 训练+测试

        使用交叉熵代价函数(CrossEntropyLoss)和自适应矩阵优化算法(Adam)训练数据。代码如下:

LR = 0.001  # 学习率
model = Net()  # 模型
crossEntropy_loss = nn.CrossEntropyLoss()  # 交叉熵代价函数
optimizer = optim.Adam(model.parameters(), LR)def train():model.train()for i, data in enumerate(train_loader):inputs, labels = data  # 获得一个批次的数据和标签out = model(inputs)  # 获得模型预测输出(64张图像,10个数字的概率)loss = crossEntropy_loss(out, labels)  # 使用交叉熵损失函数时,可以直接使用整型标签,无须独热编码optimizer.zero_grad()  # 梯度清0loss.backward()  # 计算梯度optimizer.step()  # 修改权值def test():model.eval()correct = 0for i, data in enumerate(test_loader):inputs, labels = data  # 获得一个批次的数据和标签out = model(inputs)  # 获得模型预测结构(64,10)_, predicted = torch.max(out, 1)  # 获得最大值,以及最大值所在位置correct += (predicted == labels).sum()  # 判断64个值有多少是正确的print("测试集正确率:{}\n".format(correct.item() / len(test_loader)))# 训练20个周期
for epoch in range(20):print("Epoch:{}".format(epoch))train()test()

         运行,等待片刻后,输出测试集的正确率为:

 

 


http://www.mrgr.cn/news/42657.html

相关文章:

  • 生产消费者模式
  • 自动驾驶系列—颠覆未来驾驶:深入解析自动驾驶线控转向系统技术
  • 无IDEA不Java:快速掌握Java集成开发环境
  • 什么是 NVIDIA 机密计算?( 上篇 )
  • 一次解决Go编译问题的经过
  • vSAN01:vSAN简介、安装、磁盘组、内部架构与调用关系
  • 网络基础 【HTTP】
  • HTB:Explosion[WriteUP]
  • 智能 AI 写作软件:开启创作新纪元
  • A+B 暴力版
  • 精准翻译神器:英汉互译软件的卓越表现
  • 浅谈模型量化:非对称 vs 对称
  • JS基础练习|ES6-类定义和基础
  • LSM6DSV16X基于MLC智能笔动作识别(4)----中断获取智能笔状态
  • HAR笔记--kinectis-400数据集下载和简单处理代码
  • python-求一个整数的质因数/字符串的镜像/加数
  • Mybatis——2.2 SQL的映射
  • 【AIGC】2022-CVPR-利用潜在扩散模型进行高分辨率图像合成
  • 深圳楼市国庆“狂欢”:从“冷清”到“火爆”,谁导演了这场大戏
  • 【计算机体系结构】TLB和Cache