当前位置：首页 > news >正文

吊打ControlNet？全能型图像生成模型OmniGen问世，简单提示实现图像生成与精细编辑

news 2026/2/2 0:40:04

近日，北京人工智能学院的研究团队推出了一款名为 OmniGen 的全新图像生成模型。

在这里插入图片描述

全能型图片生成编辑选手

与以往的图像生成工具如 Stable Diffusion ，OmniGen 最大的亮点是，它不再只是专注于单一任务，它具备了多种能力:

能在一个统一的框架下处理多种图像生成任务能:包括从文本到图像生成、图像编辑，可以说是个全能选手。

提示词：A vintage camera placed on the ground， ejecting a swirling cloud of Polaroid-style photographs into the air. The photos， showing landscapes， wildlife， and travel scenes， seem to defy gravity， floating upward in a vortex of motion. The camera emits a glowing， smoky light from within， enhancing the magical， surreal atmosphere. The dark background contrasts with the illuminated photos and camera， creating a dreamlike， nostalgic scene filled with vibrant colors and dynamic movement. Scattered photos are visible on the ground， further contributing to the idea of an explosion of captured memories.

再比如下面的三个官方案例，上传两张图，输入相关提示词，就能融合在一个场景中出现。

在这里插入图片描述
OmniGen 的架构非常简化。与以往的图像生成模型不同，它不再需要额外的文本编码器或繁琐的工作流程。只要输入条件，OmniGen 就能高效地生成图像，极大地提升了用户体验。它结合了变分自编码器和预训练的 Transformer 模型，从而在一个模型中同时处理图像和文本输入，减少了不必要的复杂性。

为了增强图像生成的效果，OmniGen 还采用了校正流训练方法，这种方式通过直接回归目标速度，使得图像生成的控制更加精准。此外，它的渐进式训练策略让模型从低分辨率到高分辨率逐步掌握生成技巧，效果相当出色。

OmniGen在图像生成媲美先进模型

据了解，OmniGen 的训练数据集也非常庞大多样，涵盖了各种图像生成任务。为了确保模型在多任务处理上的强大能力，研究人员构建了一个叫做 X2I 的大规模数据集，其中包含了文本到图像、图像编辑等多个任务的数据。这使得 OmniGen 能够有效地从不同的任务中学习和迁移知识，展现出新的生成能力。

在这里插入图片描述
在多项测试中，OmniGen 的表现让人惊艳，其在文本到图像生成方面，它与市面上最先进的模型表现相当。在 GenEval 基准测试中， OmniGen 仅使用了0.1亿张图像进行训练，而 SD3使用了超过10亿张图像。

图像编辑能力也同样优秀，能够精准把控源图像和编辑指令。比如在 EMU-Edit 测试集上，超越了 InstructPix2Pix 等知名模型，甚至与当前最先进的 EMU-Edit 模型相当。

而在主体驱动生成的任务中，OmniGen 更是展示出了超凡的个性化能力，适合艺术创作和广告设计等多个领域。

试玩地址:https://huggingface.co/spaces/Shitao/OmniGen

论文:https://arxiv.org/html/2409.11340v1

http://www.mrgr.cn/news/58109.html

相关文章：

Shopee虾皮登录不了的常见原因及解决方式

百科知识|选购指南

驱动-----向内核新加文件

Apache配置案例二：基于域名的虚拟主机搭建

linux下gpio模拟spi时序

must be ‘pom‘ but is ‘jar‘解决思路

C++在实际项目中的应用第三节：C++与数据科学

【文献及模型、制图分享】基于国际湿地城市视角的常德市湿地保护修复成效与归因分析及其政策启示

Windows系统配置yarn全局变量

基于图像形态学处理和凸包分析法的指尖检测matlab仿真

计算机的错误计算（一百三十三）

《山东科技大学学报（自然科学版）》

代码随想录算法训练营| 134. 加油站、 135. 分发糖果、860.柠檬水找零、 406.根据身高重建队列

两个数组的差值累加和转线段问题

华为开发者工具HarmonyNext （5.0）创建第一个项目并且设置工作区为中文目录

OpenCV系列教程六：信用卡数字识别、人脸检测、车牌/答题卡识别、OCR

SQL注入之账号登入

【SQL基础：语法、分类与DDL操作全解析】