当前位置: 首页 > news >正文

SAM 2:分割图像和视频中的任何内容

文章目录

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 任务:可提示视觉分割
  • 4 模型
  • 5 数据
    • 5.1 数据引擎
    • 5.2 SA-V数据集
  • 6 零样本实验
    • 6.1 视频任务
      • 6.1.1 提示视频分割
      • 6.1.2 半监督视频对象分割
      • 6.1.3 公平性评估
    • 6.2 图像任务
  • 7 与半监督VOS的最新技术的比较
  • 8 数据和模型消融
    • 8.1 数据消融
    • 8.2 模型架构消融
      • 8.2.1 容量消融
      • 8.2.2 相对位置编码
      • 8.2.3 记忆架构消融
  • 9 结论
  • 10 致谢
  • 附录
    • A PVS任务的细节
    • B 局限性
    • C SAM 2细节
      • C. 1 架构
      • C. 2 训练
        • C.2.1 预训练
        • C.2.2 全面训练
      • C. 3 速度基准测试
    • D 数据细节
      • D. 1 SA-V数据集细节
      • D.2 数据引擎细节
        • D.2.1 注释协议
        • D.2.2 数据引擎阶段比较
    • E 关于零样本转移实验的更多细节
    • E.1 零样本视频任务
        • E.1.1 视频数据集细节
        • E.1.2 交互式离线和在线评估细节
      • E.1.3 半监督VOS评估细节
        • E.1.4 SAM+XMem++和SAM+Cutie基线细节
      • E.2 DAVIS交互式基准测试
      • E.3 零样本图像任务
        • E.3.1 数据集细节
        • E.3.2 详细的零样本实验
    • F 在半监督VOS中与最新技术的比较的更多细节
    • G 模型、数据和注释卡片
      • G. 1 模型卡片
      • G. 2 SA-V数据集卡片
      • G.3 数据注释卡片

摘要

我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了


http://www.mrgr.cn/news/23289.html

相关文章:

  • C++第二节入门 - 缺省参数和函数重载
  • OFDM系统PAPR算法的MATLAB仿真,对比SLM,PTS以及CAF,对比不同傅里叶变换长度
  • Linux 中的 data 命令介绍以及使用
  • Apple Intelligence深夜炸场!苹果发布4颗自研芯片,iPhone/iWatch/AirPods大升级
  • Android Manifest 权限描述大全对照表
  • 【经纬度坐标系、墨卡托投影坐标系和屏幕坐标系转换详解】
  • 顺序表之判空,删除
  • NISP 一级 | 2.5 安全审计
  • 【ShuQiHere】从石英到QPU:解码计算机硬件的演进之路
  • MNIST数据集内容查看
  • matlab和opencv在双目标定参数之间的关系,不用转置和加负号
  • 认知杂谈55
  • 编程工具:提升效率的利器
  • 【大数据】Hadoop里的“MySQL”——Hive,干货满满
  • NASA数据集:ASTER L2 地表辐射率 VNIR 和 SWIR V003
  • 【人工智能】MOE架构的详细解析
  • Stable Diffusion AI算法,实现一键式后期处理与图像修复魔法
  • ctf Mark loves cat (超详细记录)
  • python日常刷题(二)
  • PI电动位移平台简明教程