当前位置: 首页 > news >正文

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities论文精度

在这里插入图片描述

  • 贡献:在21种高度不同的模态中训练一个统一的模型,并且对比专有模型不会有性能损失
  • 做法:将不同模态映射到不同的token空间,并且可以生成不同的模态token【Any-to-any】
  • 关键点:如何在不同的模态中应用tokenization进行映射
  1. Introduction
  • 先前的方法将不同的模态映射为统一表征取得成功,但是这些方法的模态数量有限;
  • 提出modality-specific discrete tokenizers,让21个不同模态的任务可以协同训练:
    • image:ViT-based VQ-VAE tokenizers
    • 3D Human / image embeddings:MLP-based discrete VAEs
    • text:WordPiece tokenizer
  • 文章实现了在一个3B模型上进行One-to-all generation【只输入一种模态,可生成多种模态】
    [图片]
  1. Method
    2.1 Modalities
  • RGB:2D图像(tokenized and pixel)、调色板(可以控制生成图像的条件);

  • Geometric:surface normals, depth, and 3D human poses & shape,使用开源模型生成的伪标签作数据;

  • Semantic:semantic segmentation and bounding boxes,使用检测分割模型(例如SAM)生成伪标签;

  • Edges:Canny edges(low-level) and SAM edges;

  • Feature maps:从CILP、DINOv2和ImageBind搜集embeddings,因为他们具有强大的迁移学习和检索能力;

  • MetaData:从上述模态中得到的更多信息,例如实例数量、实例类别等等;

  • Text:captions、web text。
    2.2 Tokenizations
    [图片]

  • ViT tokenizer (with optional diffusion decoder) :使用VQ-VQE,为图像生成small grid token(14² or 16²)

  • MLP tokenizer:使用Bottleneck MLP和Memcodes量化;

  • Text tokenizer:使用WordPiece对文本进行编码
    2.3 4M:Massively Multimodal Masked Modeling

  • 4M-21是在4M模型的基础上增加更多的模态与训练数据,并且采用了一致的训练策略得到的模型;

  • Masking strategy:与MultiMAE相似,4M采用【对称Dirichlet分布】随机采样不同模态的token:

    • MultiMAE pretraining → 只使用随机采样的token参与预训练,高效且有效;
    • 在类图像模态上,使用MaskGIT → 每个迭代中,模型同时并行地预测所有token,但只保留最自信的token;剩余的token被mask掉,并将在下一个迭代中重新预测,不断迭代直到细化生成所有token;
    • 在类文本模态上,使用next-token-generation的自回归方式;
      [图片]
  • Chained multimodal generation:4M可以作为一个生成模型,可以通过各种模态为条件,实现多模态编辑
    [图片]

2.4 Training Details

  • Datasets & Pre-training

    • CC12M:一个庞大的图像-文本对数据集,4M在此基础上生成了不同模态的伪标签;
    • COYO700M:更大规模的图像-文本对数据集,是CC12M的50倍;
    • 由于4M在CC12M上有过拟合倾向,4M-21使用CC12M混合COYO700M进行预训练,同时引入文本数据集C4同步参与训练(CC12M+COYO+C4)。训练时在混合数据的一个batch中随机抽取元素,4M-21模型不需要经过微调就已具备强大的能力;
      • 在COYO700M只用伪标签标注7种不同模态(与4M相同),从而减少标注消耗;
      • 在CC12M上对所有21种模态进行伪标签标注。
        [图片]
  • Architecture

    • 使用4M的encoder-decoder based transformer结构
    • 除了RGB tokens,encoder也可以直接通过learnable patch-wise projection接收RGB pixels
    • 使用了与4M相同的Masking strategy
  1. Multimodel capabilities
    3.1 Steerable multimodal generation
  • 4M-21可以在有条件和无条件情况下生成不同模态的token,这得益于训练时采用多种模态的混合自回归训练;
    [图片]

3.2 Multimodel retriveval

  • 通过4M-21可以生成例如DINOv2和ImageBind的图像特征,这些特征可以通过简单的余弦相似度进行检索:
    在这里插入图片描述3.3 Evaluating out-of-the-box capabilities
  • 4M-21模型可以完成多种不同的常规视觉任务
    在这里插入图片描述
  1. Transfer experiments
  • 4M-21的encoder在any-to-any的配置下进行训练之后,可以通过迁移学习,迁移到其他下游任务进行微调。微调过程不使用decoder,而是训练相应的task-specific head:
    • 单模态迁移学习(RGB):

      • 加入更多模态之后,4M-21相比于4M-7在共有的模态上没有性能损失;
      • 对于全新的下游任务,例如3D Detection,4M-21实现了性能提升;
        在这里插入图片描述
    • 多模态迁移学习(RGB + depth):相较于4M-7,4M-21对于多模态的利用能力更强
      [图片]


http://www.mrgr.cn/news/41179.html

相关文章:

  • 数字经济与新质生产力:地理信息与遥感视角下的深度分析
  • 在职场,没人告诉你的人情世故
  • dcatadmin 自定义登录页面
  • C++基础补充(01)C++11基于范围的for循环
  • 招联金融秋招内推2025
  • 相机基础概念
  • 【优选算法】(第十六篇)
  • ROM、RAM 和 Flash 的区别
  • <<迷雾>> 第5章 从逻辑学到逻辑电路(6)--莎士比亚电路 示例电路
  • Netty系列-7 Netty编解码器
  • java 日常开发踩坑之LomBok @Data映射为null
  • 高阶数据结构-------图
  • 二.物理层
  • 【Python】2. 变量和数据类型
  • [Linux]从零开始的网站搭建教程
  • 【PostgreSQL】提高篇——PostgreSQL 对 JSON 和数组的支持及其在数据建模中的应用
  • 【C++】单例模式
  • NP-hard问题
  • 用友U8-CRM fillbacksettingedit.php SQL注入复现
  • 第L6周:机器学习|支持向量机(SVM):2. 支持向量机实战