当前位置: 首页 > news >正文

reinforcement learning(利用亲身经历的经验去学习)优化目标为长期收益,优化方法为每动一下都给一个评价

适合任务:人类可能也不知道具体的label,只知道好坏。深度学习中loss不可微分的任务。

依然是找一个函数,智能体的策略函数为神经网络时叫做深度强化学习

*:action是决策后sample的结果,而不是直接argmax,这是为了exploration(探索更多可能性)

*:目标是total reward,也叫return,关注长期奖励

*:智能体经过一系列observation,action,observation,action...直到结束为一次episode(一次完整实验)

*:定义Loss:其实就是看每一步智能体行动完之后针对这个action,你觉得应该让他做还是不做,对此进行参数调整(核心就是定义下图的Ai,Ai给出这个action人类觉得好不好

上面的iteration中每轮只update一次θ参数,即收集的1个episode的data只用于当前智能体参数更新,因为新的智能体在面对相同环境的时候可能采取不同以往的action,因此需要使用新的actor自己的experience数据进行训练,上一个episode那些数据不符合它可能产生的经历,这就是on-policy

        off-policy是训练的actor和与环境互动的actor是不同的,即利用别人的经验来进行训练

        典型算法:PPO(off-policy)

critic=value function:针对具体的actor,对该actor和环境的互动进行观察,观察多个episode,总结出针对该actor的value function,critic=value function(observation)=在当前observation之后该actor的discounted cumulated reward。value function就是给出actor在遇到observation环境下之后的一切好还是不好(平均意义上)

value function的计算有蒙特卡洛方法和时间差分方法

训练出一个network给出value function的值,该network就是critic

version4:去掉st+1之后的随机性

Deep Q network:直接从critic就可以知道应该采用哪个action

sparse reward:不能直接只有最终目标有reward,需要一步一步引导,自行设置中间有用的reward,把读博拿到学位拆解成多个子任务并赋予一定的reward

No Reward的情况: Learning from Demonstration:

inverse reinforcement learning:让机器自己定义reward--即先学出reward,再利用学出的reward进行强化学习,循环往复:结构≈GAN


http://www.mrgr.cn/news/15986.html

相关文章:

  • Golang | Leetcode Golang题解之第386题字典序排数
  • 解释:某树的孩子兄弟链是什么意思?
  • django学习入门系列之第十点《django中数据库操作》
  • fpga图像处理实战-双三次插值算法
  • ShenNiusModularity项目源码学习(3:用户登录)
  • jQuery基础——选择器的补充方法——过滤方法、查找方法
  • 关系模型的完整性:数据库设计的三大基石
  • REGTR: End-to-end Point Cloud Correspondences with Transformers 论文解读
  • Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记
  • Windows环境CP Editor安装使用方法
  • Linux内核6.12新特性:panic之后扫码显示故障信息
  • 从零开发一个vscode插件
  • 1.python爬虫基础
  • 学习C语言(19)
  • ARM/Linux嵌入式面经(三二):百度
  • x264 编码器 AArch64汇编系列:zigzag 扫描相关汇编函数
  • 【ShuQiHere】从 FNN 到 RNN:用股票价格预测一步步理解神经网络的演化
  • 三星与海力士发力决战HBM4
  • 前端速通面经八股系列(六)—— Vue(下)
  • Cracking the Safe