1、Speechocean762
简介:一个开源语音语料库,专为发音评估设计。该语料库包含来自250名非母语人士的5000个英语发音,其中一半的人是儿童。五位专家对每个发音进行了句子级、词级和音素级的注释。 该语料库允许用于商业和非商业目的。
下载链接:openslr.org
2、Hi-Fi Multi-Speaker English TTS Dataset
简介:一个专为训练文本到语音模型而设计的多说话者英语数据集。该数据集基于LibriVox有声读物和Project Gutenberg的文本,均为公共领域。数据集包含大约291.6小时的语音,由10位说话者提供,其中每位说话者至少提供了17小时的语音,以44.1kHz的采样频率。
下载链接:http://www.openslr.org/109/
3、RyanSpeech
简介:RyanSpeech是一个用于研究自动文本到语音(TTS)系统的语音语料库。公开可用的TTS语料库通常有噪声,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求。这个数据集包含了真实对话场景中的文本材料,这些材料包含超过10小时由专业男声演员在44.1kHz下录制的声音。
下载链接:http://mohammadmahoor.com/ryanspeech/
4、AISHELL-3 语⾳合成数据库
简介:AISHELL-3 语音合成数据库是一个大规模的多说话人普通话语料库,用于训练多说话人文本到语音(TTS)系统。该数据库包含大约85小时的情感中性记录,由218名普通话母语者提供。这些母语者的辅助属性,如性别、年龄组和母语口音,都在数据库中明确标记。此外,还提供了汉字级别和拼音级别的转录,以及一些数据处理策略和技术,这些策略和技术与所呈现的数据库特征相匹配,并对多个语音合成系统进行了实验,以评估生成的语音样本的质量,显示出令人满意的结果。
下载链接:https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
5、RUSLAN
简介:RUSLAN语音合成数据集是一个专门用于俄语口语合成的数据集。我们可以看到,RUSLAN语音合成数据集主要关注于俄语口语的合成和识别,而不是其他语言或多语言环境下的语音合成。这个数据集可能包含了大量的俄语口语材料,这些材料被用来训练和评估语音合成系统。
下载链接:RUSLAN: Russian Spoken Language Corpus For Speech Synthesis
-
6、VocBench
简介:VocBench语音合成数据集是一个专门用于评估神经声码器(neural vocoders)的框架,它通过系统性研究来比较不同的神经声码器在一个共享环境中的表现。该数据集的目的是为了公平地比较这些神经声码器之间的性能,并且展示了每个声码器合成样本的竞争效率和质量。
下载链接:GitHub - facebookresearch/vocoder-benchmark: A repository for benchmarking neural vocoders by their quality and speed.
7、Silent Speech EMG
简介:Silent Speech EMG语音合成数据集主要涉及通过肌肉活动(EMG)信号来实现无声语音的技术。这种技术允许用户在不发出任何声音的情况下,通过肌肉活动来表达自己的意图或情感。
下载链接:GitHub - dgaddy/silent_speech: Code for voicing silent speech from EMG. Official repository for the papers "Digital Voicing of Silent Speech" at EMNLP 2020 and "An Improved Model for Voicing Silent Speech" at ACL 2021. Also includes code for converting silent speech to text.
8、Arabic Speech Corpus
简介:阿拉伯语语音语料库(1.5 GB)是用于语音合成的现代标准阿拉伯语(MSA)语音语料库。该语料库包含超过3.7小时的MSA语音的语音和拼写转录,与音素级别上的记录语音一致。注释包括单个音素上的单词重音标记。语音语料库是南安普顿大学的纳瓦·哈拉比博士学位工作的一部分。该语料库是使用专业工作室用南黎凡特阿拉伯语(大马士革口音)录制的。使用该语料库作为输出的合成语音产生了高质量、自然的声音。