当前位置：首页 > news >正文

自动化生成工作流？英伟达提出ComfyGen：通过LLM来匹配给定的文本提示与合适的工作流程

news 2025/12/27 5:57:40

ComfyGen的核心在于通过LLM来匹配给定的文本提示与合适的工作流程。该方法从500个来自用户的多样化提示生成图像，随后使用一系列美学预测模型对生成结果进行评分。这些评分与相应的工作流程形成了一个训练集，包含提示、工作流程及其得分的三元组。

然后提出了两种方法来生成提示特定的工作流程：一种是基于调优的方法，利用用户偏好数据进行学习；另一种是无训练的方法，利用LLM从现有工作流程中选择合适的流程。这两种方法均显示出相较于传统模型和通用工作流程在图像质量上的显著提升。

方法可以在不同的领域和风格中生成更高质量的图像。

相关链接

论文阅读：http://arxiv.org/abs/2410.01731v1

项目主页：https://comfygen-paper.github.io/

论文阅读

摘要

文本到图像生成的实际用途已从简单的单片模型发展为结合多个专用组件的复杂工作流。虽然基于工作流的方法可以提高图像质量，但由于可用组件数量众多、它们之间复杂的相互依赖性以及对生成提示的依赖性，制定有效的工作流需要大量专业知识。

在这里，我们介绍了一种新颖的提示自适应工作流生成任务，其目标是自动根据每个用户提示定制工作流。我们提出了两种基于 LLM 的方法来解决此任务：一种基于调整的方法，从用户偏好数据中学习，以及一种使用 LLM 选择现有流程的无训练方法。与单片模型或通用的、独立于提示的工作流相比，这两种方法都可以提高图像质量。我们的工作表明，依赖提示的流预测为提高文本到图像生成质量提供了一条新途径，补充了该领域现有的研究方向。

方法

标准文本到图像生成流程（顶部）采用单个整体模型将提示转换为图像。然而，用户社区通常依赖于复杂的多模型工作流程，这些工作流程由专家用户为不同场景手工制作。我们利用 LLM 自动合成此类工作流程，以用户的提示为条件（底部）。通过选择与提示更匹配的组件，LLM 可以提高生成图像的质量。

(a) 一个简单的 ComfyUI 管道，使用基础模型和面部恢复块，以及正向和负向提示。(b) 我们训练集中提示、流对的分数分布。(c) 具有不同分数的流针对同一提示生成的示例图像。分数越高，结果越详细、越生动，伪影越少。

实验

GenEval 提示的定性结果。ComfyGen 在多主题提示、着色和属性绑定方面表现更佳，但定位方面可能存在困难。

HPS V2.0 和用户研究胜率。我们将每条基线与 ComfyGenFT（绿色）和 ComfyGen-IC（蓝绿色）进行比较。ComfyGen 变体优于所有基线。

CivitAI提示的定性结果。模型与两类基线进行了比较：整体模型（SDXL，最流行的微调版本和 DPO 优化基线）和固定的与提示无关的流程。我们的方法在人类偏好指标和即时对齐基准方面都优于所有方法。

GenEval 基准测试结果

结论

本文介绍了提示自适应工作流生成任务并介绍了 ComfyGen - 一组解决此任务的两种方法。实验表明这种依赖于提示的流程可以胜过单片模型或固定的用户创建流程，从某种意义上提供了改善下游图像质量的新途径。

http://www.mrgr.cn/news/51025.html

相关文章：

【论文翻译】HTVGNN:一种用于交通流量预测的混合时间变化图神经网络

leetcode hot 100 之【LeetCode 283. 移动零】 java实现

单片机探秘：从理论到应用

2025年国考报名流程详细图解—新手版

JavaScript中的面向对象编程（OOP） - 终极指南

【C语言】你不知道的知识小盲区——柔性数组

【进阶OpenCV】（14）-- 人脸识别 -- LBPH 算法

详解tar.gz, tar.xz, tar, gz后缀文件的区别

Windows的Conda环境下使用PlotNeuralNet来绘制神经网络

《最优化方法》

7万字Java后端面试题大全（附答案）——持续更新

Python案例 | 测试网络的下载速度上传速度和 ping 延迟

Karmada核心概念

ARP欺骗的多种手法

SCALABLEANDEFFECTIVE IMPLICIT GRAPH NEURALNETWORKS ON LARGEGRAPHS

Java面向对象六大设计原则总结1

k8s的微服务

ComfyUI现已上线Neolink.AI，AI 绘画从此轻松驾驭！

从100次AI产品经理面试中提炼：190+个关键问题及其详细解答