当前位置：首页 > news >正文

多模态大模型 + 数字人实现半自动演示文稿 PPT讲解搭建赛博老师傅助力程序员赛博飞升！！！

news 2025/12/30 6:46:30

文章大纲

文档处理 -- LLM 的选择
开源实现 -- 语音引擎
- 连贯的语音生成引擎
- 如何复刻自己的声线
开源实现 -- 数字人
- 百度
- 腾讯
- 阿里
- 硅基智能 duix-ai
内容生成：付费工具类
- 文稿生成 wps
- 腾讯数字人
- 硅语平台
开源实现 -- 语音引擎
在线服务 -- TTS
卡通形象的数字人科普
- 小猪佩奇
- 海绵宝宝
- 孙悟空
可爱老师的讲解头像生成
讲解资源收集
- 大厂教程
参考文献

文档处理 – LLM 的选择

自从大语言模型实际投入生产，所有的底层交互都转变为了，自然语言处理的交互。

https://zhiwen.xfyun.cn/?ch=xhguanwang

https://github.com/slidevjs/slidev

开源实现 – 语音引擎

连贯的语音生成引擎

https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo

如何复刻自己的声线

之前还有不开源的：
MegaTTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

https://mega-tts.github.io/mega2_demo/

那么我们来看看最新开源的到了什么阶段。

https://funaudiollm.github.io/

CosyVoice

https://github.com/FunAudioLLM/CosyVoice

开源实现 – 数字人

百度

对口型
百度

查看全文

http://www.mrgr.cn/news/50286.html

Java | Leetcode Java题解之第479题最大回文数乘积

SpringCloud学习记录|day5

torch.jit.script编译加速推理的尝试

P1439 【模板】最长公共子序列 Python 题解

Redis如何批量删除指定前缀的key

单点登录Apereo CAS 7.1客户端登出配置及免认证页面问题

空间智能技术赋能CIM平台，为数字住建插上翅膀

Exporter for Unreal to Unity 2024（Unreal到Unity的导出器）

[Linux] 层层深入理解文件系统——（3）磁盘组织存储的文件