中科院突破:TalkingGaussian技术实现3D人脸动态无失真,高效同步嘴唇运动!

news/2024/5/22 1:52:45

DeepVisionary 每日深度学习前沿科技推送&顶会论文分享,与你一起了解前沿深度学习信息!

引言:探索高质量3D对话头像的新方法

在数字媒体和虚拟互动领域,高质量的3D对话头像技术正变得日益重要。这种技术能够在虚拟现实、电影制作、视频会议以及各种人机交互场景中找到广泛应用。尽管传统的基于神经辐射场(NeRF)的方法在生成高保真度的3D对话头像方面取得了一定的成功,但这些方法往往面临着成本高昂和面部特征易扭曲的问题。为了解决这些问题,本文提出了一种新的基于3D高斯投影(3DGS)的变形框架——TalkingGaussian,它通过对持久头部结构进行变形来生成对话头像,从而显著提高了面部动作的精确度和图像的整体质量。

论文标题: TalkingGaussian: Structure-Persistent 3D Talking Head Synthesis via Gaussian Splatting
在这里插入图片描述

机构:

  1. School of Computer Science and Engineering, State Key Laboratory of Complex & Critical Software Environment, Jiangxi Research Institute, Beihang University
  2. Institute of Semiconductors, Chinese Academy of Sciences
  3. School of Information and Communication Technology, Griffith University
  4. RIKEN AIP
  5. The University of Tokyo

论文链接: https://arxiv.org/pdf/2404.15264.pdf

项目地址: 未提供

通过引入3DGS和面部-口部解耦技术,TalkingGaussian不仅能够在不牺牲动态表现力的前提下,提供更稳定和准确的头部结构,还能够有效避免传统方法中常见的面部特征扭曲问题。此外,该方法还采用了增量采样策略,优化了变形学习过程,进一步提升了模型的学习效率和生成头像的质量。通过广泛的实验验证,TalkingGaussian在客观评估和人类判断中均优于现有的最先进方法,显示出其在实际应用中的巨大潜力。

3D高斯喷溅技术简介

3D高斯喷溅(3D Gaussian Splatting, 3DGS) 是一种用于表达三维空间信息的技术,通过一组3D高斯原始数据来实现。这些高斯原始数据包括中心位置、缩放因子、旋转四元数、不透明度和颜色特征。在渲染过程中,根据相机模型信息,这些高斯原始数据被用来计算观察视图下的像素颜色。

3DGS的核心优势在于其明确的空间表达和优化策略。通过梯度下降法优化高斯原始数据的参数,结合密集化策略控制原始数据的增长,并剪除不必要的数据,从而实现高效的颜色监督。这种方法继承了颜色监督的优化策略,有效提高了渲染效率和质量。

TalkingGaussian框架详解

TalkingGaussian 是一个基于3DGS的变形驱动的talking head合成框架。该框架的核心思想是通过多个平滑的变形来表达复杂和细粒度的面部动作,简化学习任务,从而提高面部保真度和合成质量。

持久化高斯场(Persistent Gaussian Fields)

持久化高斯场保留了具有规范参数的持久化高斯原始数据。这一模块最初通过静态3DGS初始化,随后与基于网格的运动场(Grid-based Motion Fields)共同进行优化。

基于网格的运动场(Grid-based Motion Fields)

尽管持久化高斯场能有效代表正确的3D头部结构,但由于其完全显式的空间结构,缺乏区域位置编码。考虑到大多数面部动作在区域上是平滑和连续的,我们采用了一个高效且富有表现力的三平面哈希编码器和MLP解码器来构建连续的变形空间。
在这里插入图片描述

面部-口内分解(Face-Mouth Decomposition)

尽管基于网格的运动场可以预测任意位置的点状变形,但这种表示仍然存在由面部和口内运动不一致引起的粒度问题。为了解决这一问题,我们在3D空间中将这两个区域分解,并构建两个单独的优化分支。

训练细节

我们保留了基本的3DGS优化策略来训练我们的框架。整个过程分为三个阶段,前两个阶段分别应用于两个分支,最后一个阶段用于融合。在动态学习阶段,我们将运动场的预测变形加入训练,并通过3DGS光栅化器渲染输出图像。最后,进行颜色微调阶段,以更好地融合头部和口内分支。

通过这种方法,TalkingGaussian框架能够有效地解决由不准确的外观预测引起的面部扭曲问题,生成高质量、高保真的talking head视频。

面部与口内运动的分解

在TalkingGaussian框架中,我们提出了一个面部与口内运动的分解模块,以解决这两个区域在动态表达时的运动不一致问题。传统的方法中,由于面部和口内区域的运动在空间上非常接近但并不总是同步进行,这种运动的不一致性常常导致在单一的运动场中相互干扰,从而影响了整体的动态表现和静态结构的重建质量。

为了解决这一问题,我们在3D空间中对这两个区域进行了分解,并为每个区域构建了独立的优化分支。具体来说,我们首先使用现成的面部解析模型获取2D空间中的口内区域语义掩模。然后,我们将口内区域的掩膜图像和剩余的表面区域(包括面部、头发和其他头部部分)分别用于训练两个独立的可变形高斯场,作为我们框架的两个分支。

面部分支:面部分支主要负责拟合除口内运动外的所有面部运动。在这个分支中,我们采用了区域注意力机制来促进由音频特征和上半脸表情特征驱动的条件变形的学习。为了完全解耦这两种条件,上半脸表情特征由7个与口部无关的动作单元组成,通过区域注意力机制中的注意力向量与音频和表情特征进行运算,从而计算出每个位置的区域感知特征。

口内分支:口内分支则代表音频驱动的动态口内区域。考虑到口内运动相对简单,并且仅由音频驱动,我们在这个分支中使用了一个轻量级的可变形高斯场。特别地,我们仅预测由音频特征条件化的第i个原始的平移变化。

通过这种面部与口内的分解,我们的方法不仅在动态表现上有了显著提升,也在静态结构的重建质量上得到了改善。最终的合成头像是通过将两个分支渲染的面部和口内图像融合而成。根据物理结构,我们假设口内分支的渲染结果位于面部分支的后面,从而实现了更高保真度的合成效果。

实验设置与基线比较

在我们的实验中,我们收集了四个高清晰度的说话视频剪辑,包括三个男性肖像和一个女性肖像,用于构建视频数据集。这些视频剪辑平均长度约为6500帧,帧率为25 FPS,其中三个(“May”,“Macron”和“Lieu”)被裁剪并调整大小为512×512,一个(“Obama”)调整为450×450。
在这里插入图片描述

在实验中,我们主要将我们的方法与最相关的NeRF基方法(如AD-NeRF、DFRF、RAD-NeRF、GeneFace和ER-NeRF)进行比较,这些方法通过使用说话视频训练的个人特定辐射场来渲染说话头像。此外,我们还将我们的方法与最先进的2D生成模型(如Wav2Lip、IP-LAP和DINet)进行了比较,这些模型不需要个人特定的训练。

在所有实验中,我们的方法在静态图像质量、动态运动质量和效率方面均表现最佳。特别是在动态质量方面,我们的方法在所有指标上都优于所有NeRF方法。值得注意的是,TalkingGaussian在Sync-C得分方面甚至高于生成方法IP-LAP和DINet,展示了我们方法的强大建模能力。尽管Wav2Lip在Sync-C得分最高,但其在保持个人说话风格方面的不足导致了较差的AUE-L和LMD得分。此外,由于3DGS带来的效率提升,我们的方法在所有基线中达到了最快的训练和推理速度。
在这里插入图片描述

定量评估与用户研究

1. 定量评估

在定量评估方面,我们采用了多种度量标准来评估TalkingGaussian方法在合成高质量、高保真度的3D说话头像方面的表现。这些度量标准包括PSNR、LPIPS和SSIM,用于评估图像质量;以及Sync-C和Sync-D,用于评估唇部同步的准确性。此外,我们还使用了动作单元误差(AUE-U和AUE-L)来分别评估上半脸和嘴部动作的准确性。

在自我重建设置中,TalkingGaussian在所有指标上均表现优异,尤其是在LPIPS和SSIM上,显示出其在细节渲染和结构保真度上的优势。此外,我们的方法在训练和推理速度上也是所有对比方法中最快的,显示了其高效性。

在唇部同步设置中,尽管面临跨性别和跨语言的挑战,TalkingGaussian仍然展示了出色的泛化性能,特别是在处理不同性别的音频输入时,表现出了较高的鲁棒性和适应性。

2. 用户研究

为了更好地评估TalkingGaussian在实际应用中的表现,我们进行了用户研究。在这项研究中,我们邀请了16名参与者对由8种不同方法生成的32个说话头像视频进行评分,从唇同步准确性、视频真实感和图像质量三个方面进行评价。

结果显示,TalkingGaussian在所有三个方面均获得了最高评分,验证了其在生成高质量说话头像视频方面的潜力和实用性。
在这里插入图片描述

讨论与未来工作

TalkingGaussian通过采用3D高斯飞溅技术和面部-口内解构模块,成功地解决了以往基于NeRF方法在动态区域产生的面部特征扭曲问题。通过将动态说话头部的表示简化为纯粹的形变,我们的方法不仅提高了面部保真度,还改善了唇部同步的精确度。

尽管我们的方法在多个方面表现优异,但仍存在一些限制和未来的改进方向。例如,尽管增量采样策略提高了优化过程的稳定性,但在3DGS的密集化操作中仍可能偶尔出现噪声原语,这有时会影响图像质量。未来,我们计划引入更多的约束来更好地控制原语的生长。

此外,尽管面部和口内分支通过音频特征进行了对齐,但这种连接在某些跨域情况下可能不够紧密。为了解决这个问题,我们将探索更好的两部分间的感知机制,以增强未来方法的鲁棒性。

总之,TalkingGaussian为高质量的3D说话头像合成提供了一种有效的解决方案,为数字媒体产业的发展提供了新的技术支持。同时,我们也呼吁负责任地使用这项技术,以防止其被用于恶意目的。

结论

本文提出了一种新颖的基于变形的框架——TalkingGaussian,用于高质量的3D说话头部合成。通过维持一个持久的头部结构并采用高斯溅射技术,我们的方法在合成更精确、清晰的说话头部方面超越了以往的方法。通过将面部和口内的动作分解为不同的空间,TalkingGaussian有效地解决了由于快速变化的外观预测不准确而导致的“面部扭曲”问题,实现了在合成真实和准确的说话头部视频方面的卓越性能。

1. 技术优势和应用潜力

TalkingGaussian通过3D高斯溅射(3DGS)技术,保持了头部结构的持久性,并通过变形而非外观修改来表示面部动作,这一策略显著提高了面部细节的准确性和动态表现的自然性。此外,我们的方法在多个基准测试中显示出优越的视觉质量和效率,尤其是在唇部同步和面部保真度方面,均优于当前最先进的方法。

2. 道德考量和使用建议

尽管TalkingGaussian为数字媒体行业的发展提供了强大的技术支持,但我们也必须警惕其潜在的滥用风险。为防止技术被用于制造虚假信息,我们建议在使用此技术时确保所有数据主体的明确同意,并在合成产品中明确披露使用了深度伪造技术。此外,我们将致力于开发深度伪造检测技术,以促进该技术的负责任使用。

3. 限制与未来工作

虽然TalkingGaussian在多个方面表现出色,但仍存在一些限制。例如,3DGS的密集化操作有时可能导致噪声原始图形的随机出现,尽管通过增量采样策略可以在一定程度上缓解这一问题。未来,我们计划引入更多约束来更好地控制原始图形的生长,以及增强面部和口内分支之间的连接,提高模型在跨域输入下的鲁棒性和准确性。

总之,TalkingGaussian框架的提出,不仅推动了3D说话头部合成技术的发展,也为相关领域的研究和应用提供了新的思路和工具。我们期待该技术在未来能够在更广泛的应用场景中展现其价值,同时也呼吁社会各界共同努力,确保新技术的健康发展和负责任的使用。

关注DeepVisionary 了解更多深度学习前沿科技信息&顶会论文分享!


http://www.mrgr.cn/p/25340513

相关文章

Linux操作系统·进程管理

一、什么是进程 1.作业和进程的概念 Linux是一个多用户多任务的操作系统。多用户是指多个用户可以在同一时间使用计算机系统;多任务是指Linux可以同时执行几个任务,它可以在还未执行完一个任务时又执行另一项任务。为了完成这些任务,系统上…

《痞子衡嵌入式半月刊》 第 99 期

痞子衡嵌入式半月刊: 第 99 期这里分享嵌入式领域有用有趣的项目/工具以及一些热点新闻,农历年分二十四节气,希望在每个交节之日准时发布一期。 本期刊是开源项目(GitHub: JayHeng/pzh-mcu-bi-weekly),欢迎提交 issue,投稿或推荐你知道的嵌入式那些事儿。 上期回顾 :《…

Codeforces Round 942 Div.2 题解

ds 这么聪明的。蹭个热度,挽救一下 cnblogs 蒸蒸日上的阅读量。Q: 你是手速狗吗? A: 我觉得我是。2A 因为选的 \(w\) 一定可以让它合法,一次操作可以看作 \(a\) 数组向右平移一位。枚举操作次数后暴力判断即可。 #include <bits/stdc++.h>void work() {int n;std::cin…

linux下调试串口设备

USB转串口常用CH34x芯片,该芯片有linux下的驱动。 在默认情况下,大部分linux发行版都包含了CH34x的驱动,唯一缺点就是版本比较久。 可以先插上开发板, 一般是挂载到/dev/ttyCH341USB0文件下,如果该文件不存在,有两种可能,一种是驱动版本太久,可以下载官方的驱动文件,然…

Kafka 生产者应用解析

目录 1、生产者消息发送流程 1.1、发送原理 2、异步发送 API 2.1、普通异步发送 2.2、带回调函数的异步发送 3、同步发送 API 4、生产者分区 4.1、分区的优势 4.2、生产者发送消息的分区策略 示例1&#xff1a;将数据发往指定 partition 示例2&#xff1a;有 key 的…

Windows系统下将MySQL数据库表内的数据全量导入Elasticsearch

目录 下载安装Logstash 配置Logstash配置文件 运行配置文件 查看导入结果 使用Logstash将sql数据导入Elasticsearch 下载安装Logstash 官网地址 选择Windows系统&#xff0c;需下载与安装的Elasticsearch相同版本的&#xff0c;下载完成后解压安装包。 配置Logstash配…

xhs全参xs,xt,xscommon逆向分析

声明 本文章中所有内容仅供学习交流,抓包内容、敏感网址、数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 目标网站 aHR0cHM6Ly93d3cueGlhb2hvbmdzaHUuY29tL2V4cGxvcmUvNjYyNDcxYzkwMDAwMDAwMDA0M…

做大模型产品,如何设计prompt?

做GenAI产品&#xff0c;除了要设计好的AI任务流程&#xff0c;合理的拆分业务以外&#xff0c;最重要的就是写好prompt&#xff0c;管理好prompt&#xff0c;持续迭代prompt。 prompt一般有两种形式&#xff1a;结构化prompt和对话式prompt。 结构化prompt的优点是通过规范的…

【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐pdf2htmlEX)

本文将会被汇总至 【记录】Python3&#xff5c;2024年 PDF 转 XML 或 HTML 的第三方库的使用方式、测评过程以及对比结果&#xff08;汇总&#xff09;&#xff0c;更多其他工具请访问该文章查看。 文章目录 pdf2htmlEX 使用体验与评估1 安装指南2 测试代码3 测试结果3.1 转 HT…

BSP视频教程第30期:UDS ISO14229统一诊断服务CAN总线专题,常用诊断执行流程精讲,干货分享,图文并茂(2024-04-30)

视频教程汇总帖:https://www.armbbs.cn/forum.php?mod=viewthread&tid=110519 【前言】 1、继前面分享了CANopen和J1939的专题后,这次继续为大家分享UDS专题视频第1期。 2、统一诊断服务(Unified Diagnostic Services,简称UDS)是车用电子的通信协议,是电子控制器EC…

Reverse Card (Hard Version)

事情是这样的,我验了这一场 CF。显然我玩原神玩多了有一个很奇怪的、不能过的算法,哦,当然,在我本机可以过。为了展现自己的智慧糖,我写一下。 出题人是先发给我了一个限制都是 \(n\) 的,因此只有这个。\(n,m\) 改改就是了。 要求 \(1\le a\le n,1\le b\le n\) 满足\(a+b…

IDEA在运行maven打war的时候报错:Cannot access defaults field of Properties

问题描述:解决方案 在pom.xml文件中引入:<build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-war-plugin</artifactId><version>3.3.1</version></plugin></plugins>…

重链剖分题目选讲

染色 给定一棵 \(n\) 个节点的无根树,共有 \(m\) 个操作,操作分为两种:将节点 \(a\) 到节点 \(b\) 的路径上的所有点(包括 \(a\) 和 \(b\))都染成颜色 \(c\)。 询问节点 \(a\) 到节点 \(b\) 的路径上的颜色段数量。颜色段的定义是极长的连续相同颜色被认为是一段。例如 1…

Python 数据可视化 boxplot

Python 数据可视化 boxplot import pandas as pd import matplotlib.pyplot as plt import numpy as np import seaborn as sns# 读取 TSV 文件 df pd.read_csv(result.tsv, sep\t)normal_df df[df["sample_name"].str.contains("normal")] tumor_df df…

edge 入门基础了解使用

随着Windows 11的发布&#xff0c;Microsoft Edge也迎来了新的更新和改进。作为一名长期使用Edge的用户&#xff0c;我不仅注意到了这些表面的变化&#xff0c;还深入研究了Edge在Windows 11上的新特性和潜在优势。 快捷方式 查找框 在Microsoft Edge浏览器中&#xff0c;按…

轻松使用Aspire rabbitmq framework

轻松使用aspire rabbitmq 创作初衷 aspire 是微软基金会推出的新一代云原生编排框架,具体请看 https://learn.microsoft.com/en-us/dotnet/aspire/get-started/aspire-overview 我从preview1 - preview6(目前最新 2024/5/1) 一直都有使用,在第一版的时候我就用它放入了我的…

通信原理(2)--随机过程

通信原理(2)–随机过程 3.1随机过程的基本概念 随机过程{x(t)}由一族时间函数 x i ( t ) x_i(t) xi​(t)&#xff0c;i1,2.3…组成&#xff0c;每一个时间函数 x i ( t ) x_i(t) xi​(t)称为随机过程{x(t)}的一个样本函数&#xff08;一个实现&#xff09; 每个样本函数在时间…

短视频生成背景文字工具(前端工具)

过年这两天有些无聊就刷刷抖音&#xff0c;刷着刷着自己也蠢蠢欲动&#xff0c;想发上几个&#xff0c;可是却找不到合适自己的模板。由于个人喜欢一些古诗文之类的&#xff0c;所以自己简单的编写了一个小工具&#xff0c;如下图&#xff1a; 当设置好了之后&#xff0c;将浏…

人形机器人狂潮来袭

奔跑、咖啡拉花、搬箱子、叠衣、分拣物品、吸尘清洁……曾存在于科幻电影中的人形机器人&#xff0c;正加速走进人类社会。 去年以来&#xff0c;伴随着AI大模型浪潮&#xff0c;被视为AI最佳载体的人形机器人似乎驶入了一条快车道&#xff0c;科技巨头纷纷入局&#xff0c;产…

leetcode算法热题--盛最多水的容器

题目 给定一个长度为n的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 说明:你不能倾斜容器。 示例 1:输入:[1,8,6,2,5,4,8,3,7] 输…