【机器学习300问】71、神经网络中前向传播和反向传播是什么?

news/2024/5/21 23:48:13

        我之前写了一篇有关计算图如何帮助人们理解反向传播的文章,那为什么我还要写这篇文章呢?是因为我又学习了一个新的方法来可视化前向传播和反向传播,我想把两种方法总结在一起,方便我自己后续的复习。对了顺便附上往期文章的链接方便回顾:

【机器学习300问】59、计算图是如何帮助人们理解反向传播的?icon-default.png?t=N7T8http://t.csdnimg.cn/QMYZt

一、用计算图来理解

        再用小孩儿做数学题的例子来为大家介绍什么是前向传播(又叫正向传播),什么是反向传播。假设你在教一个小孩儿,计算 (a+b)\times c 。

(1)前向传播

        就像是小孩按照步骤一步步计算题目。比如说他要计算 (a+b) × c,他先算出 a+b 的结果,然后再把这个结果乘以 c 得到最后的答案。

        前向传播是神经网络中从输入层到输出层的计算过程。在神经网络中,输入层接收原始数据,然后通过隐藏层的处理,最终由输出层产生预测结果。每个神经元都会根据前一层神经元的输出和自身的权重进行计算,然后将结果传递给下一层。

(2)损失函数

        相当于你用来判断小孩答案对错的标准,本质是个衡量错误程度的“分数”。如果他的答案离正确答案差很多,那么这个分数就会很高,表示他错的很离谱。反之,若他的损失分数很小,说明他的答案很接近正确答案。

        损失函数是用来衡量神经网络预测结果与实际结果之间差距的指标。损失函数越小,说明神经网络的预测结果越接近实际结果。在训练过程中,我们的目标就是最小化损失函数。

(3)反向传播

        反向传播类似你指导小孩如何改正错误的过程。假设他最后的答案错了,你会告诉他:“你计算的最后一步有问题,你需要知道是因为 c 值没乘对还是前面 a+b 的结果就不对。”于是你从最后一个步骤开始,告诉小孩每一步对他最后答案的影响有多大(也就是计算梯度),这样他才能有针对性地调整自己的计算步骤,以便下次做得更好。

        反向传播是神经网络中根据损失函数的梯度信息调整权重的过程。在前向传播得到预测结果并计算损失函数后,我们需要知道每个权重对损失函数的影响程度,也就是梯度。通过反向传播算法,我们可以从输出层开始,逐层计算每个神经元的梯度,并根据梯度信息更新权重。

二、用神经网络块来理解

        让我们首先来画一个神经网络:

        我先用语言来描述一下这个神经网络,上图是一个四层神经网络,有三个隐藏层。我们用L来表示隐藏层总个数,显然L=4。输入层的索引为0,故三个隐藏层的神经元个数n^{[l]}分别表示为n^{[1]}=n^{[2]}=n^{[3]}=4。而输入层的特征数表示为n^{[0]}=n_x=4。而每层都用a^{[l]}来表示激活函数输出的结果。输入激活函数中权重和偏置表示为:

\left\{\begin{matrix} z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]} \\ a^{[l]}=g^{[l]}(z^{[l]}) \end{matrix}\right.

(1)神经网络块

 

        在第l层你有参数W^{[l]}b^{[l]},正向传播里有输入的激活函数,输入是前一层a^{[l-1]},输出是a^{[l]},我们之前讲过z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]},a^{[l]}=g^{[l]}(z^{[l]}),,那么上图就是可视化展示出如何从输入a^{[l-1]}走到输出a^{[l]}的。之后你就可以把z^{[l]}的值缓存起来,因为缓存的z^{[l]}对以后的正向反向传播的步骤非常有用。

        然后是反向步骤或者说反向传播步骤,同样也是第l层的计算,你需要实现一个函数输入为da^{[l]},输出da^{[l-1]}的函数。一个小细节需要注意,输入在这里其实是da^{[l]}以及所缓存的z^{[l]}值,之前计算好的z^{[l]}值,除了输出的da^{[l-1]}值以外,还需要输出你需要的梯度dW^{[l]}db^{[l]},这是为了实现梯度下降。

(2)前向传播

        在正向传播过程中,“传播”的是信号数据(就是你通过节点式子算出来的值)。 

(3)反向传播

        通过完整的神经网络计算块,可以清晰直观的感受前向传播和反向传播参数和参数的梯度是如何在各层中传递的。 反向传播,“传播”的是误差信号在神经网络中的梯度(梯度就是指导参数该怎么变的变化率)。


http://www.mrgr.cn/p/01772525

相关文章

Go--goland下载安装

下载地址:https://www.jetbrains.com/go/download/other.html 然后进行安装,将可选那一步全勾选 运行程序好,要设置激活码或者选择登陆账户,不然不可用,激活码可以网上找免费的 新建项目 将语言设置成中文,下载chinses插件,重新运行

Bounce 弹飞绵羊

某天,Lostmonkey发明了一种超级弹力装置,为了在他的绵羊朋友面前显摆,他邀请小绵羊一起玩个游戏。游戏一开始,Lostmonkey在地上沿着一条直线摆上n个装 置,每个装置设定初始弹力系数ki,当绵羊达到第i个装置时,它会往后弹ki步,达到第i+ki个装置,若不存在第i+ki个装置,则…

element的表格页面宽度变化问题 (防抖函数)

//表格问题(防抖函数) const debounce = (fn, delay) => { let timer = null; return function() { let context = this; let args = arguments; clearTimeout(timer); timer = setTimeout(function() { fn.apply(context, args); }, delay); } }const _R…

基于Django(python+sql)的校园二手交易系统设计与实现(完整程序+开题报告+论文)

随着互联网的迅猛发展,校园内的二手交易市场也逐渐呈现出蓬勃的发展态势。学生们在校园生活中会产生大量的闲置物品,而其他学生也有可能需要这些物品。本论文研究了校园二手交易系统的需求分析、系统实现和测试三个部分,旨在提高校园二手交易…

快速删除node_modules依赖包的命令rimraf

1、安装rimraf npm install -g rimraf 2、使用命令删除node_modules rimraf node_modules *** window系统,使用命令很快就删除node_modules ***

vim多行注释与取消

Step 1:在命令行模式下,将光标固定在第一列,按Ctrl+V快捷键进入VB可视化模式: Step 2:上下移动光标,选择你想要注释的行: Step 3: 选择好之后,按**大写的**I键进入 insert 模式,输入注释符“//”或“#”: 注意这里一定要按大写的I键,小写的是不行的。 Step 4:最…

Slf4j+Log4j简单使用

Slf4jLog4j简单使用 文章目录 Slf4jLog4j简单使用一、引入依赖二、配置 log4j2.xml2.1 配置结构2.2 配置文件 三、使用四、使用MDC完成日志ID4.1 程序入口处4.2 配置文件配置打印4.3 多线程日志ID传递配置 五. 官网 一、引入依赖 <dependencies><dependency><g…

MBR30100PT-ASEMI肖特基二极管MBR30100PT

MBR30100PT-ASEMI肖特基二极管MBR30100PT编辑:ll MBR30100PT-ASEMI肖特基二极管MBR30100PT 型号:MBR30100PT 品牌:ASEMI 封装:TO-247 最大平均正向电流(IF):30A 最大循环峰值反向电压(VRRM):100V 最大正向电压(VF):0.54V~0.92V 工作温度:-40C~170C 反向恢复时间:…

脑图系列-操作系统

打开电源操作系统做了什么? 加载BIOS 当计算机插上电源时,计算机主板的BIOS开始工作。BIOS会进行POST(Power-On Self-Test)自检,检测计算机的硬件是否正常,包括处理器、内存、硬盘、显卡、网卡等设备。如果有问题,则会在屏幕上显示错误信息。 加载引导程序 当自检完成后…

别让商业机密跑了:企业如何锁紧数据大门

Facebook 用户数据泄露:2018年,Cambridge Analytica公司非法获取了8700万Facebook用户的个人数据,并用于政治广告定向;Capital One 金融公司泄密:2019年,美国银行Capital One遭到黑客攻击,导致106万个加拿大用户的个人信息以及1亿名美国用户的信息泄露。这些事件凸显了数…

WPF中文网随笔(2)

常用布局控件Panel其实是一个抽象类,不可以实例化,WPF所有的布局控件都从Panel继承而来 public abstract class Panel : FrameworkElement, IAddChild 它继承于FrameworkElement基类和IAddChild接口。所以,所有 Panel 元素都支持 FrameworkElement 定义的基本大小调整和定位…

一次配置Docker环境的完整记录

一次配置Docker环境的完整记录 Docker环境搭建报错与解决报错一报错二报错三 Docker环境搭建 本节介绍了一次配置docker环境的完整记录&#xff1a; 编写Dockerfile文件&#xff1a; FROM pytorch/pytorch:1.10.0-cuda11.3-cudnn8-develRUN rm /etc/apt/sources.list.d/cuda.l…

Avalonia实现Visual Studio风格标题栏的方法

Visual Studio风格的标题栏可以更节省屏幕空间,个人认为其实比Ribbonbar和传统菜单都要更先进一些,更紧凑,利用效率更高。我在AvaloniaSamples项目中添加了一个这种Demo,展示了如何在Avalonia 11中分别实现经典风格、Macos风格和Visual Studio风格的标题栏:关键点就在于Ma…

基于Qt的二维码生成与识别

基于Qt的二维码生成与识别 一、获取QZxing开源库 1.通过封装的QZxing开源库生成和识别二维码&#xff0c;下载地址&#xff1a;GitCode - 开发者的代码家园https://gitcode.com/mirrors/ftylitak/qzxing/tree/master。 2.下载解压后&#xff0c;使用Qt Creator xx&#xff0…

BLE V5.4新功能特性

Bluetooth SIG 的 Bluetooth v5.4 核心规范为支持 Bluetooth 的物联网设备带来了多项优势,重点是增强了通信能力、安全性和效率。这些改进尤其适用于涉及大量设备的应用,如零售、资产跟踪和智慧家居环境。 主要优势包括:与数千个终端节点进行双向通信带响应的周期性广播 (PA…

taro 开发小程序 遇到 SyntaxError: Unexpected token 语法错误等,

检查下 config 配置,需要变量值如果为字符串,则需要填写单引号+双引号

图像简单处理

需求:对上面多张这样的图像,将成员识别出来,读取本周活跃值。生成一张全部由成员组成的大图 思路:使用OpenCVSharp进行目标区域边框检测,根据大小过滤目标区域。使用Tesseract对指定位置进行文字识别(貌似识别精度不高,有乱码。) 主要代码using System; using System.C…

4月17日

VS2022运行分析器发生了很多问题,未经处理的异常

基于JSP的电器网上订购系统

本系统利用现在比较广泛的JSP结合后台SpringMybatisAjax编写程序的方式实现的。 在意见箱板块中&#xff0c;运用JSP通过JDBC技术和后台的数据库进行交互的方式将数据信息反馈给用户和管理员&#xff1b;在登录系统中&#xff0c;使用Ajax技术实现异步交互&#xff0c;在不更新…

Hive引擎底层初探

1、什么是HiveHive是一个基于Hadoop的数据仓库工具,用于处理和分析大规模结构化数据。Hive提供了类似SQL的查询语言(HiveQL),使得熟悉SQL的用户能够查询数据。Hive将SQL查询转换为MapReduce任务,以在Hadoop集群上执行数据处理和分析。 2、Hive起源 回答这个问题之前,先介绍下…