当前位置: 首页 > news >正文

多模态大模型 + 数字人 实现半自动 演示文稿 PPT讲解 搭建赛博老师傅 助力程序员赛博飞升!!!

文章大纲

  • 文档处理 -- LLM 的选择
  • 开源实现 -- 语音引擎
    • 连贯的语音生成引擎
    • 如何复刻自己的声线
  • 开源实现 -- 数字人
    • 百度
    • 腾讯
    • 阿里
    • 硅基智能 duix-ai
  • 内容生成:付费工具类
    • 文稿生成 wps
    • 腾讯 数字人
    • 硅语平台
  • 开源实现 -- 语音引擎
  • 在线服务 -- TTS
  • 卡通形象的数字人科普
    • 小猪佩奇
    • 海绵宝宝
    • 孙悟空
  • 可爱老师的讲解头像生成
  • 讲解资源收集
    • 大厂教程
  • 参考文献


文档处理 – LLM 的选择

自从大语言模型实际投入生产,所有的底层交互都转变为了,自然语言处理的交互。

https://zhiwen.xfyun.cn/?ch=xhguanwang

https://github.com/slidevjs/slidev


开源实现 – 语音引擎

连贯的语音生成引擎

https://modelscope.cn/studios/AI-ModelScope/ChatTTS-demo

如何复刻自己的声线

之前还有不开源的:
MegaTTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

https://mega-tts.github.io/mega2_demo/

那么我们来看看最新开源的到了什么阶段。

https://funaudiollm.github.io/

CosyVoice

  • https://github.com/FunAudioLLM/CosyVoice

开源实现 – 数字人

百度

对口型
百度


http://www.mrgr.cn/news/50286.html

相关文章:

  • Java | Leetcode Java题解之第479题最大回文数乘积
  • SpringCloud学习记录|day5
  • torch.jit.script编译加速推理的尝试
  • 读书笔记《PPT演讲力》大树模型
  • 如何优化 Nginx 配置
  • 用Java写一个学生类
  • RA6M5——GPIO
  • React前端框架的描述和使用方法
  • Java开发中知识点整理
  • P1439 【模板】最长公共子序列 Python 题解
  • Redis如何批量删除指定前缀的key
  • 单点登录Apereo CAS 7.1客户端登出配置及免认证页面问题
  • 安装和配置Canal
  • Linux rm命令详解
  • 面对服务器掉包的时刻困扰,如何更好的解决
  • Oracle数据库安装Windows版本
  • C++ 内存分布情况
  • 空间智能技术赋能CIM平台,为数字住建插上翅膀
  • Exporter for Unreal to Unity 2024(Unreal到Unity的导出器)
  • [Linux] 层层深入理解文件系统——(3)磁盘组织存储的文件