当前位置：首页 > news >正文

[Arxiv 2024] Self-Rewarding Language Models

news 2025/8/4 3:35:40

Contents

Introduction
Method
Experiments
References

Introduction

作者提出 Self-Rewarding 训练框架，LLM 在训练过程中同时担任 actor 和 critic，actor 负责合成新数据，critic 负责判断合成数据质量用于组成高质量的偏好数据集用于模型的下一轮训练，在训练过程中，模型的 actor 和 critic 能力也会同步得到提升，从而逐步生成更高质量的数据并基于此不断迭代训练，使得 LLM 训练仅需少量人工标注数据，并获得 super-human feedback

Method

在这里插入图片描述

Initialization. 初始训练阶段需要一定量人类标注的 Seed instruction following data 和 Seed LLM-as-a-Judge instruction following data，使得预训练 LLM 获得一定的指令服从和回复质量评估能力
Self-Instruction Creation. 一轮训练完成后，LLM 可以自行生成 AI Feedback Training (AIFT) data 加入原始数据集用于下一轮训练. (1) 使用 few-shot prompting 生成新 prompts；(2) LLM 对每个 prompt 采样生成 $N$ 个 responses；(3) 通过 LLM-as-a-Judge 给每个 response 评分，然后选择评分最高和最低的 responses 组成 preference pairs 用于下一轮 DPO 训练

Experiments

Instruction Following Ability.
Reward Modeling Ability.

References

Yuan, Weizhe, et al. “Self-rewarding language models.” arXiv preprint arXiv:2401.10020 (2024).
code: https://github.com/lucidrains/self-rewarding-lm-pytorch

http://www.mrgr.cn/news/13682.html

相关文章：

一步步理解 Python 异步生成器（AsyncGenerator）——从入门到实践

CMake Error at CMakeLists.txt (find_package)幕后真凶

Git 常用命令总结

zsh: command not found: ohpm - mac安装ohpm工具 - 鸿蒙开发

Aiseesoft Data Recovery for Mac：专业级数据恢复解决方案

Semantic Kernel/C#：一种通用的Function Calling方法，文末附经测试可用的大模型

Nextjs(App Router) 开发记录

C++ | Leetcode C++题解之第382题链表随机节点

农夫山泉：不止一瓶水

list的使用及其相关知识点

解除 Excel 表格的文档保护全攻略

Java-InputStream转换成MultipartFile工具类

多云复杂性正在危及组织的数字化进程

【Leetcode 2099 】找到和最大的长度为 K 的子序列 —— 索引与排序

PyTorch深度学习模型训练流程：（二、回归）

2024 CygenixCTF repwn 部分wp

Java面试宝典-java基础04

软件设计师全套备考系列文章15 -- 数据库：规范化、控制功能、大数据

【Go函数详解】三、匿名函数和闭包

供应链采购管理系统中常见的专有名词解释【自用】