当前位置: 首页 > news >正文

大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

在 大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况:

我是从bilibili up主小Lin说提取了一些视频,然后进行了重新的fine-tune。

训练结果

如下图所示,上面波形幅度较大的是xttsv2原始模型的结果,第二个是fine-tune了290000 step之后的结果,因为CSDN没法直接放wav文件,上传到CSDN上了,但是不知道怎么变成了VIP资源,如果想要的,可以留言,超过10+人我做个网盘链接供大家下载。
在这里插入图片描述

后续计划

  • 后续会训练vits模型以和xttsv2的效果做对比
  • 改进中文编码,只支持中英文以提高效率&性能
  • 增加文本上下文,以合成合适情感、情境的语音

http://www.mrgr.cn/news/50806.html

相关文章:

  • STL源码剖析:适配器
  • 通过Express + Vue3从零构建一个用户认证与授权系统(二)数据库与后端项目搭建与实现
  • 【嵌入式】手把手教你入门STM32的GPIO:初识GPIO输出
  • [LeetCode 题3] 没有重复字符的最长的子字符串
  • 滚珠花键润滑技术优化:保障灵敏度与长寿命
  • 文件的读写、FileStream
  • 【基础篇】哨兵集群:哨兵挂了,主从库还能切换吗?
  • 101、QT摄像头录制视频问题
  • AI多模态测评基准(3):SuperCLUE-o 中文原生多模态实时交互测评基准
  • 4G、5G通信中,“网络侧“含义
  • 达梦数据库(DM8)兼容mysqlSQL
  • 【Unity - 屏幕截图】技术要点
  • 人工智能之动物识别专家系统
  • vue使用jquery的ajax,页面跳转
  • 【Java 并发编程】单例模式
  • 鸿蒙开发(NEXT/API 12)【发送数据到服务器】远场通信场景
  • ai-scientist部署和使用
  • 用于病理图像诊断的跨尺度多实例学习|文献速递-基于深度学习的医学影像分类,分割与多模态应用
  • vue3.0 + vue-i18n:使用方法和自动引入多个语言文件
  • Vulhub DerpNStink: 1靶机详解