图像在神经网络中的预处理与后处理的原理和作用(最详细版本)

news/2024/5/22 0:11:12

1. 问题引出及内容介绍

相信大家在学习与图像任务相关的神经网络时,经常会见到这样一个预处理方式。

self.to_tensor_norm = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

具体原理及作用稍后解释,不知道大家有没有想过,将这样一个经过改变的图像数据输入到网络中,那么输出的结果也是这种类似改动过的,那岂不是真实的数据了

所以一般会有个后处理的代码,如下:

def tensor2img(img):img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)img = img.clip(min=0, max=255).astype(np.uint8)return img

为什么这样就可以将改动过的数据恢复原样了,后处理的代码看着也不像预处理的逆过程啊。

先来分析一下代码,了解其处理过程,最后再推理出这两个互为逆过程。

2. 预处理

transforms.ToTensor()

transforms.ToTensor()是PyTorch中的一个图像转换方法,用于将PIL图像或numpy数组转换为PyTorch张量。具体来说,它会执行以下操作:

  1. 将图像或数组的数据类型从uint8(0-255)转换为float32(0.0-1.0)。
  2. 对图像进行标准化处理,即将像素值除以255,将其缩放到0到1之间。
  3. 如果输入是一个多通道的图像(例如RGB图像),它会重新排列通道,将通道维度放在第一个维度上

下面是我翻译的源码的注释,包含了输入的要求:

torchvision.transforms.ToTensor 类用于将 PIL 图像 numpy 数组转换为张量。这个转换不支持 torchscript。

将一个 PIL 图像或 numpy 数组(大小为 H x W x C,其中 H 表示高度,W 表示宽度,C 表示通道数)的像素值范围从 [0, 255] 转换为范围在 [0.0, 1.0] 的 torch.FloatTensor,其形状为 (C x H x W)。这种转换只有在以下情况下才会进行:

  • 如果 PIL 图像的模式为(L、LA、P、I、F、RGB、YCbCr、RGBA、CMYK、1)之一
  • 如果 numpy 数组的数据类型为 np.uint8。(因为uint8的类型的取值范围是0-255

在其他情况下,转换后的张量将不会进行缩放。

两者内容互为补充,相信足够理解这个代码了,如果不够理解,没事,我自己写个代码解释:

上述数值被分别除以255得到转换后的张量,现在应该有更直观的理解了。

transforms.Normalize()

transforms.Normalize()是PyTorch中的一个图像转换方法,用于对张量进行标准化处理。具体来说,它执行以下操作:

  1. 对每个通道进行均值归一化:将每个通道的像素值减去均值,以使每个通道的均值为0。
  2. 对每个通道进行标准差归一化:将每个通道的像素值除以标准差,以使每个通道的标准差为1。

在给定的示例中,(0.5, 0.5, 0.5)表示每个通道的均值,(0.5, 0.5, 0.5)表示每个通道的标准差。这个转换将图像的每个通道的像素值从0到1的范围,调整到-1到1的范围内。

上述的预处理的两个步骤可以概括为归一化或者标准化,为什么需要这两个步骤呢,我举例子加以说明

  1. 加速收敛

    • 例子:假设有一个深度神经网络,其输入是未经归一化的图像数据,像素值范围是0到255。如果使用简单的梯度下降法进行优化,由于像素值的范围很大,梯度更新可能会非常缓慢。通过将数据归一化到0到1之间,梯度更新将更加稳定,从而加快收敛速度。
  2. 提高模型性能

    • 例子:考虑一个用于手写数字识别的卷积神经网络(CNN)。如果输入图像的亮度差异很大,网络可能会对亮度较高的图像更加敏感。通过归一化亮度,网络可以更专注于识别数字的形状和结构,而不是亮度。
  3. 稳定性

    • 例子:在处理图像数据时,如果某些像素值异常高(例如,由于光照条件的变化),这可能会导致数值计算中的溢出问题。通过归一化,可以将这些极端值限制在一个较小的范围内,从而提高数值稳定性。
  4. 防止过拟合

    • 例子:在一个包含多种类型图像的数据集中,如果某些类型的图像具有更高的对比度,网络可能会偏向于学习这些特征,从而忽视其他类型的图像。通过归一化,可以减少这种偏差,使网络能够更均匀地学习所有类型的图像。
  5. 适应不同初始化

    • 例子:使用He初始化或Xavier初始化等方法为神经网络的权重赋予初始值时,这些方法通常假设输入数据已经被归一化。如果输入数据未经归一化,权重初始化的效果可能会大打折扣。
  6. 节省计算资源

    • 例子:在进行大规模图像处理时,如果输入数据未经归一化,那么在浮点数运算中可能会遇到数值溢出的问题,这需要使用更高精度的数据类型,从而增加计算资源的消耗。归一化可以减少这种情况的发生。
  7. 改善梯度下降的效率

    • 例子:在训练一个深度神经网络时,如果输入数据未经归一化,梯度可能会在某些方向上过大,在其他方向上过小。这会导致优化过程中的锯齿现象,使得找到全局最小值变得更加困难。归一化有助于平衡梯度的大小,使优化过程更加平滑。

3. 后处理

img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)

这行代码的作用是将PyTorch张量转换为numpy数组,并执行以下操作:

  1. img.permute(0, 2, 3, 1):这一步是对张量的维度进行重新排列,将通道维度移到最后一个维度上。这通常是因为在PyTorch中,图像的通道维度是第二个维度,而在numpy数组中,通常是最后一个维度。所以这一步是为了将数据转换为numpy数组后,通道维度的顺序与numpy数组的约定相匹配。

  2. .cpu().numpy():这一步将PyTorch张量移动到CPU上,并将其转换为numpy数组。通常,在GPU上进行计算后,需要将数据移回CPU上才能调用numpy方法。

  3. + 1:这一步将数组中的所有元素加1,将范围从[-1, 1]映射到[0, 2]

  4. * 127.5:这一步将数组中的所有元素乘以127.5,将范围从[0, 2]映射到[0, 255],将数据重新缩放到uint8范围内。

  5. np.round():这一步对数组中的所有元素执行四舍五入操作,将浮点数转换为整数。

综合起来,这行代码的作用是将PyTorch张量(范围在[-1, 1]之间)转换为numpy数组,并将其值重新映射到uint8范围内(0-255),并将浮点数转换为整数。
 

 img = img.clip(min=0, max=255).astype(np.uint8)

这行代码的作用是确保numpy数组中的数值范围在0到255之间,并将其类型转换为无符号8位整数(uint8),以便表示图像像素值。

4. 推导逆过程

先把代码放一起进行比较

预处理:
self.to_tensor_norm = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])后处理:
def tensor2img(img):img = np.round((img.permute(0, 2, 3, 1).cpu().numpy() + 1)* 127.5)img = img.clip(min=0, max=255).astype(np.uint8)return img

下面是推导过程:

完结撒花!
不足之处还请大家指正。


http://www.mrgr.cn/p/65007027

相关文章

华夏芯产品技术概述

华夏芯产品技术概述GPTX1 CPU 概述: GPTX1 CPU是华夏芯完全自主知识产权、自主架构的面向嵌入式的高能效CPU核。此CPU核依托Unity指令集,针对先进半导体工艺对微架构和流水线进行了深度优化,能够在相同工艺下达到更高的主频和更高的能效,应用于网络、通讯、数字电视、存储等…

FANUC机器人SOCKET连接指令编写

一、创建一个.KL文件编写连接指令 创建一个KL文本来编写FANUC机器人socket连接指令 二、KAREL指令代码 fanuc机器人karel编辑器编辑的karel代码如下: PROGRAM SM_CON %COMMENT SOCKET连接 %STACKSIZE 4000 --堆栈大小 %INCLUDE klevccdfVAR status,data_type,in…

Go 语言数组

Go 语言提供了数组类型的数据结构。 数组是具有相同唯一类型的一组已编号且长度固定的数据项序列,这种类型可以是任意的原始类型例如整型、字符串或者自定义类型。 相对于去声明 number0, number1, ..., number99 的变量,使用数组形式 numbers[0], num…

使用工具速记

文章目录 一、sqlyoy登录账号信息迁移二、idea导入之前的已配置的idea信息三、设置windows UI大小四、其他 提示:以下是本篇文章正文内容,下面案例可供参考 一、sqlyoy登录账号信息迁移 工具(sqlyog上面菜单栏)->导入导出详情->选择要导出的账号…

VSCode SSH连接远程主机失败,显示Server status check failed - waiting and retrying

vscode ssh连接远程主机突然连接不上了,终端中显示:Server status check failed - waiting and retrying 但是我用Xshell都可以连接成功,所以不是远程主机的问题,问题出在本地vscode; 现象一: 不停地输入…

Kafka 3.x.x 入门到精通(05)——对标尚硅谷Kafka教程

Kafka 3.x.x 入门到精通(05)——对标尚硅谷Kafka教程 2. Kafka基础2.1 集群部署2.2 集群启动2.3 创建主题2.4 生产消息2.5 存储消息2.6 消费消息2.6.1 消费消息的基本步骤2.6.2 消费消息的基本代码2.6.3 消费消息的基本原理2.6.3.1消费者组2.6.3.1.1 消费…

STM32F103学习笔记 | 4.STM32F103芯片介绍

STM32F1入门学习将使用STM32F103C8T6开发板最小系统板。小R为什么选择它来入门呢?咳咳~首先,ST官方提供强大且易用的标准库函数,使得开发过程方便快捷;其次,网上的教程资料多也十分详细。所以呢,它对高校学…

微信小程序:6.事件

什么事事件 事件就是渲染层到逻辑层的通讯方式,比如提交表单,按钮点击都可以看作一个事件。 小程序中常用的事件 事件对象属性列表 当事件回调时,会收到一个事件对象event,他详细属性如夏表所示: target和curren…

ThinkPHP Lang多语言本地文件包含漏洞(QVD-2022-46174)漏洞复现

1 漏洞描述 ThinkPHP是一个在中国使用较多的PHP框架。在其6.0.13版本及以前,存在一处本地文件包含漏洞。当ThinkPHP开启了多语言功能时,攻击者可以通过lang参数和目录穿越实现文件包含,当存在其他扩展模块如 pear 扩展时,攻击者可…

无人零售与传统便利店的竞争优势

无人零售与传统便利店的竞争优势 成本控制 • 无人零售 显著降低了人力成本,无需支付店员薪资和相关福利,且通过智能化管理减少能源消耗与维护费用,尤其在高租金和高人流区域效益突出。 • 传统便利店 则承担较高的人员开支,…

[Android]Jetpack Compose加载图标和图片

一、加载本地矢量图标 在 Android 开发中使用本地矢量图标是一种常见的做法,因为矢量图标(通常保存为 SVG 或 Android 的 XML vector format)具有可缩放性和较小的文件大小。 在 Jetpack Compose 中加载本地矢量图标可以使用内置的支持&…

《Fundamentals of Power Electronics》——Boost电路及仿真

Boost电路的拓扑结构如下所示: 下面是在simulink中搭建的一个Boost电路的仿真实验平台,其中直流输入电压为100V,电感值为1mH(模拟电阻为1毫欧),电容值为470uF,负载为50欧姆,占空比选择为0.5,开关…

指纹浏览器:网络安全与隐私的新工具

在互联网时代,隐私和网络安全成为人们越来越关注的话题。随着数字化的发展,个人信息的泄露和在线追踪的问题愈发严峻。在这个背景下,"指纹浏览器"作为一种新型工具,开始受到关注。撸空投需要了解指纹浏览器。本文将深入…

Python 可以对数据进行哪些可视化?

Python 可视化 一、条形图(或柱状图) 1.代码如下: import matplotlib.pyplot as plt import pandas as pddf pd.DataFrame({County:[America,Canada,Australia,Germany,French,China],GDP:[80,30,70,80,60,75] })plt.bar(df[County],df[G…

2024年必应bing广告推广开户有什么条件?

必应Bing作为全球领先的搜索引擎之一,其广告平台正为无数企业开辟着新的市场蓝海。如果您正寻求在必应Bing上投放广告,提升品牌影响力和市场份额,那么了解开户条件并找到一位可靠的合作伙伴至关重要。云衔科技,作为数字营销领域的…

汽车信息安全入门总结(2)

目录 1.引入 2.汽车信息安全技术 3.密码学基础知识 4.小结 1.引入 上篇汽车信息安全入门总结(1)-CSDN博客主要讲述了汽车信息安全应该关注的点,以及相关法规和标准,限于篇幅,继续聊信息安全相关技术以及需要掌握的密码学基础知识。 2.汽…

Java 面向对象—重载和重写/覆盖(面试)

重载和重写/覆盖: 重载(overload): Java重载是发生在本类中的,允许同一个类中,有多个同名方法存在,方法名可以相同,方法参数的个数和类型不同,即要求形参列表不一致。重载…

Python来计算 1,2,3,4 能组成多少个不相同且不重复的三位数?

我们今天的例子是 有 1,2,3,4 四个数字,它们能组成多省个互不相同且无重复的三位数?都分别是多少? 话不多说,我们先上代码 num 0 # 我们写了三个for循环,表示生成的三位数 for i…

基于gitee WebHook完成代码提交就触发Jenkins自动构建

基于gitee WebHook完成代码提交就触发Jenkins自动构建 1 在Jenkins安装 gitee插件。2:关联gitee的私有令牌跟Jenkins的关系。3: 配置全局gitee全局token4 配置gitee令牌:5:新建项目,配置gitee地址,账号密码。关联webHook,自动构建代码。** ​ 新建项目:6 配置gitee…

有哪些好用电脑端时间定时软件?桌面日程安排软件推荐 桌面备忘录

随着现代生活节奏的加快,人们对于时间管理和任务提醒的需求越来越大。为了满足这一需求,市场上涌现出了众多桌面便签备忘录软件,它们不仅可以帮助我们记录待办事项,还能定时提醒我们完成任务。在这篇文章中,我将为大家…