风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

news/2024/5/18 17:32:47

不知道大家近期的朋友圈有没有被和海马体、天真蓝如出一辙的AI写真刷屏！

在这里插入图片描述

这些面若桃花、精致到头发丝、光影充满氛围感的写真都是一款叫“妙鸭相机”的小程序生成的！只要9.9，就能体验999写真！

在这里插入图片描述

虽然只要9.9，但生成的照片真的很逼真！

在大家被ChatGPT和Midjourney所惊艳之后，如今又惊叹于妙鸭相机的写真能力！

它到底用到了什么AI技术才做到这么厉害的呢？

本文就带大家来探索一下！

01
AIGC关键技术

无论是ChatGPT，还是Midjourney、妙鸭相机，都属于人工智能创造内容（AI Generated Content，AIGC）！

AIGC有两项关键技术：

一个是ChatGPT所代表的大模型（Large Language Model，LLM）技术。

另一个是Midjourney、妙鸭相机等AI绘画作图背后的扩散模型（Diffusion Model）技术。

AI绘画、AI对话、AI游戏创作等这些产物的背后是深度生成模型，它可以根据已有的数据和计算机程序生成新的数据。

真实世界的数据是复杂的，其维度高、分布复杂，变量之间还存在非线性关系，例如，图片数据被认为是二维空间的像素点数据，并且图片内容决定了像素点之间有着复杂的交互关系。这对使用传统模型进行拟合数据分布提出了巨大挑战。

此外，我们不仅希望AI生成的内容有真实性，也希望其是新颖的，即可以对问题提出新的解决方案，而不只是复制已有的内容；高效地利用计算机的运算能力，实现高效的自动化生产；根据用户需求提供相应的内容，等等。

在这些需求下，扩散模型能够捕捉复杂的数据分布、产生真实、新颖的内容，并且能够实现个性化的、高效的生产。因此，引起了人们的广泛关注。

深度生成模型源于生成式建模和深度学习。

生成建模认为数据在相应的空间存在着概率密度分布，其目的就是建模和学习这种潜在分布。早期的生成建模如高斯混合模型（GMM），隐马尔可夫模型（HMM）在表达能力和可扩展性方面存在局限性，在现实数据的复杂性面前表现得较为吃力。

VAE将深度神经网络与变分推断技术相结合，学习潜在先验并生成新样本。它们提供了端到端训练的框架，并提供了更灵活的生成建模能力。

GAN在深度生成模型的历史中是另一个重要的里程碑，GAN引入了一种新颖的对抗训练方法，同时训练生成器网络和判别器网络。该架构通过生成器和判别器网络之间的最小、最大博弈来生成高度逼真的样本。

深度生成模型还有基于能量的模型和基于流的模型，等等。

02
扩散模型

扩散模型于2020年被提出，但其发源可以追溯到2015年，理论背景甚至可以追溯到20世纪对于随机过程、随机微分方程的研究。

扩散模型通过向原始数据逐步加入噪声来破坏原始信息，然后再逆转这一过程生成样本。相较于以往的深度生成模型，扩散模型生成的数据质量更高、多样性更强，并且扩散模型的结构也很灵活，这使得扩散模型很快成为了研究和应用的热点。在《扩散模型：生成式AI模型的理论、应用与代码实践》一书中就详细讨论了扩散模型与其他深度生成模型的关系。

我们可以考虑一个物理过程来通俗地理解扩散模型。把真实世界的数据比作空气中的一团分子，它们互相交织，形成了具有特定结构的整体。由于这个分子团过于复杂，我们无法直接了解其结构，但我们可以理解在空气中做无规则运动的某种粒子，即对应着服从标准高斯分布的某个变量。从无规则运动的粒子出发，我们不断变换这些粒子的相对位置，每次只变换一小步，最终将这些粒子的分布状态变换为我们想要的复杂的分子的形态。也就是说，从纯噪声开始，我们进行了很多小的“去噪”变换，逐渐地将噪声的分布转换为数据的分布，这样就可以利用得到的数据分布进行采样，得到新的数据。可以看到，我们需要知道的信息就是——该如何进行每一步的变换。这比直接学习原始数据的分布简单得多，并且朴素地解释了扩散模型的有效性。《扩散模型：生成式AI模型的理论、应用与代码实践》一书会详细、严格地介绍扩散模型的原理和算法。

扩散模型也有其内在的缺点，如采样速度慢、对结构化数据处理能力较差，等等。例如，扩散模型在将噪声分布逐步转换为数据分布的过程中需要大量调用神经网络，这就导致了生成高质量图片时采样时间较长。后续大量的研究就是致力于提升扩散模型各个方面的性能，使扩散模型可以真正帮助人们高效解决现实问题。《扩散模型：生成式AI模型的理论、应用与代码实践》一书将详细分析扩散模型的优缺点，并系统地讲解扩散模型的进一步发展。

03
扩散模型应用

得益于扩散模型的强大性能，图片生成的应用Stable Diffusion、DALLE·2、Midjourney、妙鸭相机等在实际生产中都有利用扩散模型进行创造性内容生成。

这些应用程序利用扩散模型进行条件生成，即基于输入，引导、生成符合条件的内容。这种引导可以是自然语句，可以是部分图像，也可以用低分辨率的图像作为引导，生成高分辨率的图像，等等。

此外还有利用扩散模型生成语音、视频等各种模态数据的应用。艺术创作者们可以使用这些应用进行直接创作，或者使用它来提供灵感。在生成内容上进行修改可以大大提升工作效率。

但同时，扩散模型的强大能力和广泛引用也导致了潜在的负面影响。

AI的高效让部分创作者面临失业的风险；

扩散模型生成的内容存在版权问题、隐私问题和偏见问题；

AI生成的内容可能被用于有害的用途；

……

此外，扩散模型在科学研究领域也有应用，比如分子结构生成、分子动力学模拟。扩散模型可以生成表示分子的3D表示、分子的图结构，或者二者同时生成，以及控制生成分子的性质。这对于AI制药领域是又一大研究贡献。

在工业界的应用有点云生成和补全、异常检测等。

在医学领域的应用包括医学图像重建和病灶检测等。