编程知识
  • 编程日记
当前位置: 首页 > news >正文

AI学习记录 - PPO算法草稿

news 2025/5/11 8:52:27

returns

在这里插入图片描述
下面是两种方式生成returns的值,第一种好一点
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
delta计算方式不一样
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

通过一些计算方式,将未来的一些计算值,赋予到前面去,从而影响将前面的token和后面的token绑定到一起,从而实现每当生成一个tokend的时候,都会考虑到未来的token。
在这里插入图片描述

查看全文

http://www.mrgr.cn/news/93962.html

相关文章:

  • LiveCommunicationKit OC 实现
  • 力扣热题 100:二叉树专题进阶题解析(后7道)
  • 23种设计模式简介
  • Liunx(CentOS-6-x86_64)使用Nginx部署Vue项目
  • VUE3开发-9、axios前后端跨域问题解决方案
  • 英语学习(GitHub学到的分享)
  • 滑动窗口算法-day7(越长越合法子数组)
  • 18、函数的反柯里化
  • SpringMVC 基本概念与代码示例
  • 【git】 贮藏 stash
  • 《 C++ 点滴漫谈: 三十 》高手写 C++,参数这样传才高效!你真的用对了吗?
  • 【git】删除已加入 .gitignore却仍被git追踪的文件
  • 1分钟看懂React的那些Hook‘s
  • java每日精进 3.11 【多租户】
  • 【性能测试】Jmeter详细操作-小白使用手册(2)
  • win10安装部署DB-gpt,坑多
  • 【Linux docker】关于docker启动出错的解决方法。
  • git规范提交之commitizen conventional-changelog-cli 安装
  • cu118 安装vllm 极简教程 踩坑笔记
  • [pytest] 配置
  • 最新文章

    • redis高级进阶
      redis高级进阶
      2025/5/6 18:00:51
    • 2025年一加7pro刷twpr / magisk / kali nethunter教程+资源下载+避坑指南
      2025年一加7pro刷twpr / magisk / kali nethunter教程+资源下载+避坑指南
      2025/5/3 0:49:32
    • PV操作:宣帧闯江湖武林客栈版学习笔记【操作系统】
      PV操作:宣帧闯江湖武林客栈版学习笔记【操作系统】
      2025/5/3 0:28:14
    • 给U盘加上图标
      给U盘加上图标
      2025/5/2 18:34:47
    • 第 12 届蓝桥杯 C++ 青少组中 / 高级组省赛 2021 年 4 月 24 日真题
      第 12 届蓝桥杯 C++ 青少组中 / 高级组省赛 2021 年 4 月 24 日真题
      2025/5/2 15:22:37
    • sftp连接报错Received message too long 168449893
      sftp连接报错Received message too long 168449893
      2025/5/2 15:21:32
    • 编程知识介绍
    • 商务合作
    • 免责声明

    CopyRight © 编程知识版权所有