当前位置: 首页 > news >正文

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

在自然语言处理领域,大型语言模型(LLMs)的发展迅速,已经在多个领域取得了显著的进展。不过,随着模型的复杂性增加,如何准确评估它们的输出就变得至关重要。传统上,我们依赖人类来进行评估,但这种方式既耗时又难以规模化,无法跟上模型快速发展的步伐。

在这里插入图片描述
为了改变这种现状,Salesforce AI 研究团队推出了 SFR-Judge,这是一个由三个大型语言模型组成的评估家族。这些模型分别拥有80亿、120亿和700亿个参数,基于 Meta Llama3和 Mistral NeMO 构建。SFR-Judge 能够执行多种评估任务,包括成对比较、单一评分和二分类评估,旨在帮助研究团队快速高效地评估新模型的表现。

在这里插入图片描述
传统的 LLM 评估模型往往存在一些偏差问题,比如位置偏差和长度偏差,这会影响它们的判断。为了克服这些问题,SFR-Judge 采用了直接偏好优化(DPO)训练方法,让模型从正负例中学习,从而提升其评估任务的理解能力,减少偏差,确保判断的一致性。

在测试中,SFR-Judge 在13个基准测试上表现优异,超过了许多现有的评估模型,包括一些私有模型。特别是在 RewardBench 排行榜上,SFR-Judge 的准确率达到了92.7%,这是生成型评估模型首次和第二次超越90% 的门槛,展现出其在评估模型中的卓越表现。

SFR-Judge 的训练方法涵盖三种不同的数据格式。首先是 “思维链批评”,帮助模型生成对评估响应的结构化分析。其次是 “标准评判”,简化评估过程,直接反馈响应是否符合标准。最后,“响应推导” 则帮助模型理解高质量回应的特征,强化其判断能力。这三种数据格式的结合,使得 SFR-Judge 的评估能力得到了极大提升。

经过大量实验,SFR-Judge 模型在减少偏差方面表现显著优于其他模型。在 EvalBiasBench 基准测试中,它们展现了高度的成对顺序一致性,这表明即便响应顺序发生变化,模型的判断依然保持稳定。这使得 SFR-Judge 成为一种可靠的自动化评估解决方案,减少了对人工标注的依赖,为模型评估提供了更可扩展的选择。

论文入口:https://arxiv.org/abs/2409.14664


http://www.mrgr.cn/news/42980.html

相关文章:

  • 前端Vue项目的自动打包、上传与部署
  • 车载入行:HIL测试、功能安全测试、CAN一致性测试、UDS测试、ECU测试、OTA测试、TBOX测试、导航测试、车控测试
  • Python案例--三数排序
  • .NET开源跨平台桌面和移动应用的统一框架 - Eto.Forms
  • 殷人昆教授带头节点单链表
  • C++ 语言特性22 - 三向比较
  • Java后端开发中的数据保护:如何实现全面的数据加密
  • 计算机组成原理之无符号整数的表示和运算
  • C++ 语言特性21 - 别名模板
  • 【C++差分数组】2381. 字母移位 II|1793
  • 探索Python的魔法:标准库与第三方库的奇妙世界
  • Chat登录时出现SSO信息出错的解决方法
  • 随时随地,轻松翻译:英汉互译软件的便捷之旅
  • HTML ASCII:Web 开发中的字符编码基础
  • 业务封装与映射 -- 编码方式(QPSK、DQPSK、QAM)
  • 腾讯自研Git客户端,助力每个人都可以轻松使用Git
  • Bootstrap 5 网格系统
  • 15分钟学 Python 第37天 :Python 爬虫入门(三)
  • 污水排放口细粒度检测数据集,污-水排放口的类型包括10类目标,10000余张图像,yolo格式目标检测,9GB数据量。
  • Java中的数据格式转换:JSON、XML与Protobuf的应用与选择