公开音频数据集和语音预训练模型总结

人工智能炼丹师
2022-11-02 / 0 评论 / 300 阅读 / 正在检测是否收录...

开源数据集

数据集 说明
Google-AudioSet 2084k, 527个类别, youtube视频
Youtube-100M 100M Youtube视频,根据标题/描述/评论自动生成的标签,标签集合约3w
WeneSpeech 中文1w小时+音频数据集, 包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景
VGG-Sound short clips of audio sounds, 200k个Youtube视频, 310个类别
LibriSpeech Large-scale (1000 hours) corpus of read English speech
Libri-Light open-source audio books from the LibriVox project
GigaSpeech audiobooks, podcasts and YouTube
VoxPopuli multilingual corpus, 23种语言,100k小时

开源预训练模型

模型 训练数据 备注
Vggish YouTube-100M 2017年
腾讯游戏开源wav2vec2.0 & hubert WeneSpeech 2021年
FaceBook data2vec LibriSpeech 2022年
MSRA WavLM Libri-Light, GigaSpeech, VoxPopuli 2021年
3

评论 (0)

取消
粤ICP备2021042327号