Bark
Génération audio multilingue open source par texte

Bark est un modèle génératif de synthèse audio à partir de texte (text-to-audio) développé par Suno et publié en open source. Contrairement aux outils de synthèse vocale classiques, il ne se limite pas à lire un texte : il produit une parole réaliste, mais aussi de la musique, des bruitages, du bruit ambiant et des sons non verbaux comme les rires, les soupirs ou les pleurs. L’objectif est de transformer directement du texte écrit en pistes audio expressives, sans passer par une étape intermédiaire de phonèmes.
Sur le plan technique, Bark repose sur une architecture de type transformeur GPT, proche de modèles comme AudioLM et VALL-E, et s’appuie sur le codec EnCodec de Facebook pour la représentation audio quantifiée. Il prend en charge treize langues, dont le français, l’anglais, l’allemand, l’espagnol, l’italien, le japonais, le coréen ou le chinois simplifié. Le modèle fournit plus de cent voix préréglées réparties entre ces langues. Il s’installe via pip ou par clonage du dépôt, fonctionne sur CPU comme sur GPU (PyTorch 2.0+, CUDA), la version complète demandant environ 12 Go de VRAM.
Bark vise les développeurs, chercheurs et créateurs techniques à l’aise avec Python. Ses forces sont sa gratuité, sa licence MIT autorisant l’usage commercial, sa polyvalence sonore et son support multilingue. Ses limites principales tiennent aux sorties courtes (environ 13-14 secondes), à l’absence de clonage vocal personnalisé et à des besoins matériels conséquents.
Notes détaillées 3.1/5
Fonctionnalités clés
- Synthèse vocale multilingue (13 langues)
- Génération de musique et de bruitages
- Sons non verbaux (rires, soupirs, pleurs)
- Plus de 100 voix préréglées
- Conversion directe texte vers audio
- Exécution sur CPU ou GPU
👍 Avantages
- Open source sous licence MIT (usage commercial autorisé)
- Gratuit et auto-hébergeable
- Polyvalence sonore (voix, musique, effets)
- Support de 13 langues dont le français
👎 Inconvénients
- Sorties courtes (environ 13-14 secondes)
- Pas de clonage vocal personnalisé
- Besoins matériels élevés (~12 Go de VRAM)
- Nécessite des compétences techniques (Python)
