科技云报道:大模型加持后,数字人“更像人”了吗?

news/2024/5/17 14:37:23

科技云报道原创。

北京冬奥运AI 虚拟人手语主播、杭州亚运会数字人点火、新华社数字记者、数字航天员小诤…当随着越来越多数字人出现在人们生活中,整个数字人行业也朝着多元化且广泛的应用方向发展,快速拓展到不同行业、不同场景。

面向C端,数字人帮助用户生产内容和辅助工作,如:数字人练口语、和数字人玩游戏等;面向B端,数字人是企业的“工具人”,应用于金融、影视、电商、直播等行业,提高行业生产和运营效率。

毫无疑问,数字人是一门好生意,但其规模化落地依然面临着人才、成本、场景、技术等层层困难。其中,最关键的是技术瓶颈,如何让数字人摆脱“空有一副好皮囊”的市场评价是一大难题。

然而,随着大模型的出现,数字人的发展似乎正在迎来新的机遇。
在这里插入图片描述

大模型赋能数字人

对于产业界而言,数字人本身并不新鲜。在过去很长一段时间内,为了又力求数字人视觉外形上的高保真呈现,生产成本不亚于制作一部专业级电影。

瑞银发布的数字人研究报告指出,高级虚拟人物的先期投入成本平均为3000万元,后期又需要真人团队完成拍摄、配音、剪辑。以乐华娱乐的虚拟女团A-SOUL为例,其一支单曲制作成本约200万元,一场线下演唱会成本约2000万元。

但即便是如此高昂的成本,也解决不了数字人的互动效果问题。由于智能水平不足,与其说它是数字人,更像是一个没有灵魂的数字皮套。

高成本,再加上互动效果不佳,使得数字人的使用被限制在厂商内部或大企业客户的试验项目。

因此,当具有学习能力的生成式大模型颠覆了内容制作范式后,面向更广范围的中小型企业用户、优先规模化落地使用的廉价数字人成为了可行方案。

据一名人工智能研究人员介绍,大模型对数字人的重塑与赋能主要体现为降本增效。

从技术角度来说,搭建一个数字人主要分为建模、驱动、渲染几个环节。传统的数字人主要依托计算机图形学技术+真人动作捕捉,需要采集大量的真人数据,深度建模,耗时长,效率低,成本高。

如今在大模型的加持下,通过AI算法,基于深度学习模型、动作模拟、情感模拟等技术,只需要几分钟的真人视频,用大模型训练若干个小时,就可以生成逼真的数字人,制作成本大大降低。

不仅如此,数字人在成本降低的同时,效能也大大提升。

在大模型出现以前,数字人在外形上差异度较小,而且只能根据输入的统一脚本,“照本宣科”地回答问题。

在大模型的赋能下,数字人拥有了“灵魂”,不仅外貌特征可以自定义设计,智能化、交互性也有了很大提升。比如在一些直播带货场景中,数字人已经可以与受众进行基础互动。

比如,百度智能云发布的曦灵数字人,大模型的加持下,可以15分钟快速完成直播间搭建,自动生成匹配产品特色的讲品话术,开启智能互动问答。

在某餐饮品牌的直播间,曦灵数字人主播自动生成直播话术,包含开场破冰、福利放送、暖场话术、催单话术等。在这场真人与曦灵数字人的接力直播中,用户竟然没有丝毫察觉。

更令人惊讶的事,在真实6小时的直播比对中,数字人主播仅需真人主播15%的成本,就可获得真人主播85%GMV。

除了直播带货,百度智能云曦灵作为国内首个大模型全面重构的数字人平台,还可为企业提供2D真人、3D写实、3D超写实的人像,实现视频制作、数字员工、数字人代言人等多种应用。

比如,在曦灵平台,只需5分钟的真人视频,半小时即可训练人像,录制100句话语,24小时生成专属音色库,相比真人授课成本只需过去的30%,录制效率提升20倍。

不难发现,经过大模型重塑与赋能的数字人,一定程度上摆脱了价格昂贵、互动性差等问题,越来越广泛地出现在短视频、直播间中。

同时,数字人开始朝着更多“身份”进军——银行理财师、律师、老师、已逝的名人……数字人正在成为任何想成为的人,也为这条日渐拥挤的赛道带来了新的机遇。

让数字人更像“人”

大模型的出现让数字人“脱胎换骨”,成为如今最火的创业赛道之一。

目前市场上主要的数字人厂商主要有两类:一类是以百度、腾讯、华为等为代表的科技巨头,基于自身大模型方面的优势研发推出数字人产品;另一类是以硅基智能、出门问问、相芯科技等为代表的中小厂商。

多名人工智能领域投资人表示,目前AIGC(生成式人工智能)还处于早期阶段,能落地产生利润的不多,数字人是其中比较少有的商业化路径,且已经能够盈利的项目。

但随着大量的创业者涌入,行业竞争趋于激烈和同质化,赛道逐渐变得拥挤和内卷。

内卷的一个表现是价格越降越低。目前2D数字人的价格大多数已经降到千元级别,有的甚至只需要几百元。

360集团的数字人营销服务也显示,通过智能营销云平台的配套SaaS服务推广给客户,按照会员用户每月付费的标准估算,一款数字人的价格最低几十元,最高在一、二百元上下。

随着大量低成本的数字人涌入市场,百元级别的数字分身迅速被炒成一本万利的“财富经”。

每到深夜,打开主流平台,大量的数字人坚守在直播间。随之而来的是关于数字人的质疑声渐起,诸如效果太假、市场混乱等,导致用户体验不佳。

有业内人士认为,随着越来越多的玩家涌入,一些创业者技术能力有限,生产的数字人产品质量良莠不齐,容易导致劣币驱逐良币。

一方面,数字人多用于较为简单的环境、解决较为基础的问题,在场景切换或面对多轮对话时,可能出现答非所问或陷入死循环的情况,制约用户体验。

另一方面,大模型下的数字人交互体验始终与真人存在明显差异,比如,在Sora生成内容中,无视物理学原理、人的手指时多时少等问题被广为诟病,可能进一步引发心理方面的“恐怖谷效应”。

对此,也有专家认为,需要进一步提升技术创新能力和用户体验感,在保证数字人外在拟人效果的同时,优化用户交互体验,注重实时渲染、光学捕捉、三维重建、智能人机交互等新兴技术与自然语言处理、语音识别、计算机视觉、生成式AI等技术的研究和应用。

“当前行业正在共同突破的技术目标是‘如何让数字人变得更像一个人’,像人一样去思考”,一位业内人士表示,加快企业间的技术协同,解决交互型数字人在情绪感知、语义理解等方面的技术难题是接下来的重点。

这一系列的挑战都指向技术侧。

2024年度《中国虚拟数字人影响力指数报告》指出,截至2024年2月底,国家知识产权局“专利检索”数据显示,2023年全年数字人领域专利申请数高达544个,反映出业界在核心技术研发上的强劲势头和深度创新。

从2023年数字人相关专利申请机构来看,以百度、腾讯为代表的老牌互联网巨头,以中国移动、工商银行为代表的头部通信、金融机构,以小冰公司、世优科技、黑镜科技为代表的头部数字人公司形成了技术端的多强格局。

尽管行业头部大厂在AI技术上拥有了先发优势,但在产业高速发展的过程中,每个公司在技术本身都没有绝对的壁垒,本质上技术背后是人。对于所有数字人厂商来说,AIGC带来机会的同时,也成为直面挑战的起点。

结语

数字人正处于风口,吸引了大量想分一杯羹的创业者涌入。但不可否认的是,作为一项年轻的技术,数字人还处于早期阶段,市场尚在培育之中。

对于同处一片红海中的数字人公司来说,要思考的或许不是如何“卷低价”,而是通过技术的不断进步,让数字人“更像人”,提高行业的整体水位,让数字人“活下去”,创造更多的价值。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。


http://www.mrgr.cn/p/17365087

相关文章

知识跟踪模型GraphKT

1 知识跟踪Knowledge Tracing的概念 知识跟踪可以用来解决自适应学习问题。如何通过与教学材料的在线互动来有效地跟踪学生的学习进展?知识跟踪可用于量化学生的知识状态,即对教材所涉及的技能掌握水平。用于评估和模拟学生随着时间推移对技能的认知掌握…

深入解析Nacos配置中心的动态配置更新技术

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 在微服务架构中,配置管理变得尤为关键。Nacos,作为一个开源的、易于使用的、功能丰富的平台,为…

案例与脚本实践:DolphinDB 轻量级实时数仓的构建与应用

DolphinDB 高性能分布式时序数据库,具有分布式计算、事务支持、多模存储、以及流批一体等能力,非常适合作为一款理想的轻量级大数据平台,轻松搭建一站式的高性能实时数据仓库。 本教程将以案例与脚本的方式,介绍如何通过 Dolphin…

MySql 表中的id突然变很大,如何给id重新排序

目录 一、场景 二、解决方法 一、场景 我们在开发过程中,难免遇到id突然增大的情况。 由于id突然增大很多,我们重新增加数据时候id会默认加1 那么如何让id 重新从1按顺序排序呢 二、解决方法 点击编辑表,然后新建一个字段id2,将…

【设计模式】聊聊观察者设计模式原理及应用

原理 观察者模式属于行为模式,行为模式主要解决类和对象之间交互问题。 含义:在对象之间定义一个一对多的依赖,当一个对象状态改变时,所有依赖的对象会自动通知。 被依赖的对象被观察者(Observable) ,依赖的对象观察…

策略模式类图与代码

某大型购物中心欲开发一套收银软件,要求其能够支持购物中心在不同时期推出的各种促销活动,如打折、返利(例如,满300返100),等等。现采用策略(Strategy)模式实现该要求,得到如图7.13 所示的类图。 【Java 代码】 import java.util…

NPU硬件架构及张量技术开发

NPU硬件架构及张量技术开发 NPU 系统介绍 V853 芯片内置一颗 NPU,其处理性能为最大 1 TOPS 并有 128KB 内部高速缓存用于高速数据交换,支持 OpenCL、OpenVX、android NN 与 ONNX 的 API 调用,同时也支持导入大量常用的深度学习模型。 NPU 系统架构 NPU 的系统架构如下图所示…

阶段性学习汇报 4月19日

一、毕业设计和毕业论文 毕业设计后端功能基本实现,但是还有些具体的细节需要优化,例如这些图片的显示问题,前端只有个前端页面以及部分交互逻辑,还需进一步完善。我想在疾病预测这里加一个创新点,基于推荐算法。小程序…

(五)PostgreSQL的管理工具pgAdmin

PostgreSQL的管理工具pgAdmin pgAdmin 是一款流行的开源图形界面管理工具,用于 PostgreSQL 数据库的管理和开发。它提供了一个易于使用的界面,允许用户执行各种数据库任务,如创建和修改数据库对象(表、视图、索引等)、…

算法:位运算

算法&#xff1a;位运算 常见位运算操作基本题型模拟加法数字查找总结 常见位运算操作 在C/C中&#xff0c;有比较丰富的位运算操作符&#xff0c;常见的有&#xff1a; &&#xff1a;按位与 |&#xff1a;按位或 ~&#xff1a;按位取反 ^&#xff1a;按位异或 <<&a…

Win11 WSL2 install Ubuntu20.04 and Seismic Unix

Win11系统&#xff0c;先启用或关闭Windows功能&#xff0c;勾选“适用于Linux的Windows子系统”和“虚拟机平台”两项 设置wsl默认版本为wsl2&#xff0c;并更新 wsl --list --verbose # 查看安装版本及内容 wsl --set-default-version 2 # 设置wsl默认版本为wsl2 # 已安装…

nginx安装在linux上

nginx主要用于反向代理和负载均衡&#xff0c;现在简单的说说如何在linux操作系统上安装nginx 第一步&#xff1a;安装依赖 yum install -y gcc-c pcre pcre-devel zlib zlib-devel openssl openssl-devel 第二步&#xff1a; 下载nginx&#xff0c;访问官网&#xff0c;ngin…

CentOS 7安装Zookeeper

说明&#xff1a;本文介绍如何在CentOS 7操作系统下使用Zookeeper 下载安装 首先&#xff0c;去官网下载所需要安装的版本&#xff0c;我这里下载3.4.9版本&#xff1b; 上传到云服务器上&#xff0c;解压 tar -xvf zookeeper-3.4.9.tar.gz修改配置 进入Zookeeper目录下的co…

jenkins 启动linux节点时 控制台中文显示问号乱码

新增一个jenkins节点时&#xff0c;遇到了控制台中文输出问号的问题。 网上各种配置jenkins的全局变量&#xff0c;都不行。 最终是 节点列表 ->对应节点 -> 启动方式 -> 高级 添加JVM选项 -Dfile.encodingUTF-8

C语言 递归

递归指的是在函数的定义中使用函数自身的方法。 举个例子&#xff1a; 从前有座山&#xff0c;山里有座庙&#xff0c;庙里有个老和尚&#xff0c;正在给小和尚讲故事呢&#xff01;故事是什么呢&#xff1f;“从前有座山&#xff0c;山里有座庙&#xff0c;庙里有个老和尚&…

用python实现四则运算的生成与判定

小组成员:2252316,2252326点击查看代码 import randomdef generate_question():operators= [+, -, *, /]while 1:operator1 = random.choice(operators)operator2 = random.choice(operators)num1 = random.randint(1, 100)num2 = random.randint(1, 100)num3 = random.randi…

自己的事情自己做:使用 Python Turtle 绘制 Python Logo

以下代码中&#xff0c;将向你展示一个有趣的程序&#xff0c;如何使用 Python Turtle 中绘制 Python Logo。Python 翻译成汉语是蟒蛇的意思&#xff0c;Python 的 Logo 也是两条缠绕在一起的蟒蛇。 import turtlepen turtle.Turtle() turtle.bgcolor("black") pe…

2024年五一杯数学建模B题思路分析

文章目录 1 赛题思路2 比赛日期和时间3 组织机构4 建模常见问题类型4.1 分类问题4.2 优化问题4.3 预测问题4.4 评价问题 5 建模资料 1 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 2 比赛日期和时间 报名截止时间&#xff1a;2024…

Ubuntu22.04 + ROS2 Humble的环境配置

Ubuntu22.04 ROS2 Humble的环境配置 文章目录 Ubuntu22.04 ROS2 Humble的环境配置(1) Set locale(2) Setup Sources(3)安装ROS2(4)检查是否成功安装 参考官方网站ROS2-Installation ROS2的各种版本及维护计划&#xff0c;可以参考ROS2-List of Distributions (1) Set locale…

Flattened Butterfly 扁平蝶形拓扑

Flattened Butterfly 扁平蝶形拓扑 1. 传统蝶形网络 Butterfly Topology2. 扁平蝶形拓扑 Flattened Butterfly3.On-Chip Flattened Butterfly 扁平蝶形拓扑应用于片上网络 Flattened Butterfly 扁平蝶形拓扑 扁平蝶形拓扑是一种经济高效的拓扑&#xff0c;适用于高基数路由器…