标签搜索

Jefxiong

累计撰写 68 篇文章
累计收到 8 条评论

首页
/
多模态理解
/
正文

多模态理解

公开音频数据集和语音预训练模型总结

人工智能炼丹君

2022-11-02 / 0 评论 / 488 阅读 / 正在检测是否收录...

11/02

开源数据集

数据集	说明
Google-AudioSet	2084k, 527个类别, youtube视频
Youtube-100M	100M Youtube视频，根据标题/描述/评论自动生成的标签，标签集合约3w
WeneSpeech	中文1w小时+音频数据集, 包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景
VGG-Sound	short clips of audio sounds, 200k个Youtube视频, 310个类别
LibriSpeech	Large-scale (1000 hours) corpus of read English speech
Libri-Light	open-source audio books from the LibriVox project
GigaSpeech	audiobooks, podcasts and YouTube
VoxPopuli	multilingual corpus, 23种语言,100k小时

开源预训练模型

模型	训练数据	备注
Vggish	YouTube-100M	2017年
腾讯游戏开源wav2vec2.0 & hubert	WeneSpeech	2021年
FaceBook data2vec	LibriSpeech	2022年
MSRA WavLM	Libri-Light, GigaSpeech, VoxPopuli	2021年

3

版权属于：人工智能炼丹君

本文链接： https://jefxiong.cn/index.php/archives/795.html

作品采用：《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 》许可协议授权

评论 (0)

取消

粤ICP备2021042327号