当前位置: 首页 > news >正文

Null-text Inversion for Editing Real Images using Guided Diffusion Models

  • https://openaccess.thecvf.com/content/CVPR2023/papers/Mokady_NULL-Text_Inversion_for_Editing_Real_Images_Using_Guided_Diffusion_Models_CVPR_2023_paper.pdf
  1. 问题引入
  • 针对的是图像编辑的问题,图像编辑需要首先invert原图到pretrained model’s domain,本文提出的就是精确inversion的方法,因为之前ddim在使用CFG的inversion上面表现不好;
  • 方法由两部分组成:pivotal inversion for diffusion models(ddim inversion提供下一步优化的起点) + null text optimization(优化CFG使用的null text embedding),因为模型主体参数没有改变,所以可以支持prompt-based editing这个任务;
  1. methods
    在这里插入图片描述
  • 定义初始图片 I I I和编辑后图片 I ∗ I^* I,原始prompt和编辑后prompt P , P ∗ P,P^* P,P
  • pivotal inversion: CFG放大了ddim inversion的累积误差,导致inverse不准,首先使用ddim+guidance scale=1进行inverse得到初始trajectory z T ∗ , ⋯ , z 0 ∗ z_T^*,\cdots,z_0^* zT,,z0,其中 z 0 ∗ = z 0 z_0^*=z_0 z0=z0
  • null text optimization:将null text embedding替换成了optimized one,也就是 { ∅ } t = 1 T \{\empty\}_{t = 1}^T {}t=1T,并且 ∅ t \empty_t t使用上一步的 ∅ t + 1 \empty_{t + 1} t+1来进行初始化;
  • t = T , ⋯ , 1 t=T,\cdots,1 t=T,,1的顺序进行优化,每一个step优化 N N N次,初始化 z T ‾ = z T ∗ \overline{z_T}=z_T^* zT=zT,guidance scale设置为7.5,训练的目标是 m i n ∅ t ∣ ∣ z t − 1 ∗ − z t − 1 ( z t ‾ , ∅ t , C ) ∣ ∣ 2 2 min_{\empty_t}||z^*_{t - 1} - z_{t - 1}(\overline{z_t},\empty_t,C)||_2^2 mint∣∣zt1zt1(zt,t,C)22
  • 算法总结如下:在这里插入图片描述

http://www.mrgr.cn/news/53112.html

相关文章:

  • AI 自学 Lesson2 - 回归(Regression)
  • Doctype? 严格模式 、混杂模式?
  • 微信小程序用开发工具在本地真机调试可以正常访问摄像头,发布了授权后却无法访问摄像头,解决方案
  • 【热门】智慧果园管理系统解决方案
  • 如何高效规划千人大会?数字化会议管理的实战经验分享!建议收藏!
  • Python 工具库每日推荐【Jinja2 】
  • canvas鼠标点击特效
  • 软考中级科目怎么选?软考中级证书有什么用?
  • 八小时筹百万美金!智能指环届的黑马
  • 近屿智能荣登2024 CHINA AIGC 100榜单,助力AI产业高质量发展
  • 基于51单片机的数字电容表(程序+Protues仿真+报告)
  • 无人机载30倍三光跟踪吊舱-千里眼航空
  • LeetCode:3191. 使二进制数组全部等于 1 的 最小次数(贪心 java)
  • RabbitMQ队列
  • 在OLED屏上通过串口来显示视频的代码(python+C)
  • 云电脑使用教程标准版
  • 如果用Java设计MySQL中表级锁、行级锁和间歇锁会是怎么的?
  • opencv c++取mask的最大连通域
  • 图像识别技术的多领域应用:从医疗到安防
  • sql 32位长id 唯一