畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking
畅游Diffusion数字人(0):专栏文章导航
前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。
目录
效果速览
原理简介
两阶段音频-视觉对齐
身份保持
运动强度调节
论文和代码
效果速览
可以去原始项目主页观看视频: