当前位置: 首页 > news >正文

揭露 Sapiens:未来以人为中心的视觉任务

在这里插入图片描述

Sapiens | Meta

Meta Reality Labs 隆重推出 Sapiens,这是一个尖端的模型系列,专为四种以人为中心的基本视觉任务而设计:二维姿态估计、身体部位分割、深度估计和表面法线预测。

我们的 Sapiens 模型可无缝处理 1K 高分辨率推理,并可通过直接微调在超过 3 亿张野生人类图像的庞大数据库中训练的现有模型,毫不费力地针对特定任务进行定制。

在这里插入图片描述
我们模型的适应性确实非同一般,即使在标注数据有限或完全是合成数据的情况下,我们的模型在面对野生数据时也能展现出非凡的泛化能力。此外,我们模型的精简设计也有助于提高其可扩展性–当我们将参数从 0.3 亿增加到 20 亿时,模型在所有任务中的性能都得到了提高。在各种以人为中心的评估中,Sapiens 的表现始终优于现有基准。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。

  • 二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的姿势和动作。

  • 身体部位分割:这项任务将图像分割成不同的身体部位,如头部、躯干、手臂和腿部。图像中的每个像素都被归类为属于特定的身体部位,这对虚拟试穿和医学成像等应用非常有用。

  • 深度估计:这项任务是估算图像中每个像素与摄像头的距离,从而有效地从二维图像中生成三维图像。这对增强现实和自动驾驶等应用至关重要,因为在这些应用中,了解空间布局非常重要。

  • 表面法线预测:这项任务是预测图像中表面的方向。每个像素都会分配一个法向量,表示表面朝向的方向。这些信息对于三维重建和了解场景中物体的几何形状非常有价值。

在这里插入图片描述
在这里插入图片描述
Meta 公司表示该模型可原生支持 1K 高分辨率推理,并且非常容易针对个别任务进行调整,只需在超过 3 亿张野生人类图像上对模型进行预训练即可。

https://github.com/facebookresearch/sapiens


http://www.mrgr.cn/news/7287.html

相关文章:

  • 金融基础知识-基金管理公司投资限制+保险公司投资限制
  • 卷积神经网络初认知
  • HackThe Box--Cap
  • Type-C无线麦克风方案
  • 递归神经网络 (RNN) 简介
  • 在SpringBoot项目中如何集成eureka
  • 代码随想录第六天
  • 四、Centos7-安装Gitlab
  • 饿了么后端登录模块
  • 基于cubemx的STM32的freertos的串口通信
  • 数据结构之 队列入门 队列例程 队列例程分析
  • Vue中的methods方法与computed计算属性的区别
  • RTC碰到LXTAL低频晶振停振怎么办?
  • Java 中的 Tomcat 详解
  • mac苹果电脑搭建Python开发环境
  • StarRocks 存算分离数据回收原理
  • ZooKeeper的8大应用场景解析
  • SLAM学习笔记
  • DNS服务器的起点:根服务器
  • c语言利用if else制作信号灯程序