Zeroscope
Modèle open source de génération vidéo à partir de texte

Zeroscope est un modèle de génération de vidéo par IA en source ouverte, conçu pour créer de courtes séquences animées à partir de descriptions textuelles. Il répond au besoin de la communauté et des créateurs qui souhaitent expérimenter la génération vidéo sans dépendre d’un service propriétaire, en disposant d’un modèle librement utilisable et modifiable.
Le modèle transforme un prompt en une séquence vidéo de quelques secondes, et se décline en variantes adaptées à différentes résolutions, certaines servant à une première génération et d’autres à un agrandissement pour améliorer la définition. Étant ouvert, il peut être exécuté localement sur une machine équipée d’un GPU adapté ou via des interfaces communautaires, et s’intègre dans des chaînes de création pour les utilisateurs disposant de compétences techniques.
Il s’adresse aux développeurs, chercheurs, artistes numériques et amateurs souhaitant explorer la vidéo générative ou l’intégrer à leurs propres projets. Ses forces résident dans son caractère libre, sa flexibilité et l’absence de coût de licence. Ses limites sont notables : durée de clip très courte, cohérence temporelle et qualité encore en retrait face aux solutions commerciales les plus avancées, et des exigences matérielles ainsi qu’une prise en main qui le rendent moins accessible aux utilisateurs non techniques.
Notes détaillées 3.1/5
Fonctionnalités clés
- Génération vidéo à partir de texte (text-to-video)
- Sortie 576x320 en 16:9 à 24 images/seconde
- Vidéos sans filigrane
- Upscaling via zeroscope_v2_XL (vid2vid)
- Intégration avec l'extension 1111 text2video
- Utilisable via la librairie Diffusers
👍 Avantages
- Totalement open source et téléchargeable
- Gratuit pour un usage non commercial
- Besoins VRAM modérés (environ 7,9 Go)
- Sorties sans filigrane
👎 Inconvénients
- Licence CC-BY-NC-4.0 : usage commercial interdit
- Résolution et durée des clips limitées
- Nécessite un GPU et des compétences techniques (Python, Diffusers)
- Qualité dégradée à basse résolution ou faible nombre d'images
