当前位置：首页 > news >正文

大模型之三十二-语音合成TTS(coqui) 之二 fine-tune

news 2025/12/28 1:58:35

在大模型之三十-语音合成TTS(coqui)[shichaog @CSDN]中提到了xttsv2的fine-tune。

数据情况：

我是从bilibili up主小Lin说提取了一些视频，然后进行了重新的fine-tune。

训练结果

如下图所示，上面波形幅度较大的是xttsv2原始模型的结果，第二个是fine-tune了290000 step之后的结果，因为CSDN没法直接放wav文件，上传到CSDN上了，但是不知道怎么变成了VIP资源，如果想要的，可以留言，超过10+人我做个网盘链接供大家下载。
在这里插入图片描述

后续计划

后续会训练vits模型以和xttsv2的效果做对比
改进中文编码，只支持中英文以提高效率&性能
增加文本上下文，以合成合适情感、情境的语音

http://www.mrgr.cn/news/50806.html

相关文章：

STL源码剖析：适配器

通过Express + Vue3从零构建一个用户认证与授权系统（二）数据库与后端项目搭建与实现

【嵌入式】手把手教你入门STM32的GPIO：初识GPIO输出

[LeetCode 题3] 没有重复字符的最长的子字符串

滚珠花键润滑技术优化：保障灵敏度与长寿命

文件的读写、FileStream

【基础篇】哨兵集群：哨兵挂了，主从库还能切换吗？

101、QT摄像头录制视频问题

AI多模态测评基准(3)：SuperCLUE-o 中文原生多模态实时交互测评基准

4G、5G通信中，“网络侧“含义

达梦数据库（DM8）兼容mysqlSQL

【Unity - 屏幕截图】技术要点

人工智能之动物识别专家系统

vue使用jquery的ajax，页面跳转

【Java 并发编程】单例模式

鸿蒙开发（NEXT/API 12）【发送数据到服务器】远场通信场景

ai-scientist部署和使用

用于病理图像诊断的跨尺度多实例学习|文献速递-基于深度学习的医学影像分类，分割与多模态应用

vue3.0 + vue-i18n：使用方法和自动引入多个语言文件

Vulhub DerpNStink: 1靶机详解