Aya
Modèles d'IA multilingues open source pour 100+ langues

Aya est une initiative de science ouverte portée par Cohere Labs, la division recherche de l’entreprise Cohere, dédiée à l’avancement de l’intelligence artificielle multilingue. Le projet vise à rendre les grands modèles de langage plus inclusifs en couvrant des langues souvent négligées par les systèmes anglophones dominants. Issu de la plus grande collaboration scientifique ouverte en apprentissage automatique, Aya réunit une communauté internationale de chercheurs pour produire des modèles et des jeux de données librement accessibles.
Concrètement, Aya regroupe plusieurs familles de modèles ouverts. Aya Expanse (8B et 32B) prend en charge 101 langues, Aya Vision (8B et 32B) ajoute la compréhension multimodale image-texte sur 23 langues, tandis qu’Aya 101 couvre également 101 langues. La gamme Tiny Aya (3,35B) propose des variantes régionales légères orientées Afrique, Asie du Sud ou Asie-Pacifique. L’approche repose sur un entraînement modulaire, des architectures économes en ressources et des pipelines d’instruction visant une performance équitable entre langues à fortes et faibles ressources. Les poids des modèles sont disponibles sur Hugging Face, avec des démonstrations en ligne.
Aya s’adresse aux chercheurs, développeurs et organisations souhaitant déployer des modèles multilingues, en particulier pour des langues peu dotées. Ses forces sont l’ouverture, la couverture linguistique étendue et la reconnaissance académique (prix du meilleur article ACL 2024). Ses limites tiennent à son orientation recherche, qui demande des compétences techniques d’intégration, et à une documentation tarifaire ou produit clé en main quasi inexistante.
Notes détaillées 3.7/5
Fonctionnalités clés
- Modèles de langage multilingues couvrant jusqu'à 101 langues
- Variantes régionales légères (Tiny Aya)
- Compréhension multimodale image-texte (Aya Vision)
- Poids des modèles ouverts disponibles sur Hugging Face
- Jeux de données d'instruction multilingues ouverts
- Architectures économes en ressources de calcul
👍 Avantages
- Modèles et jeux de données réellement open source
- Couverture linguistique très étendue, y compris langues peu dotées
- Issu d'une large collaboration scientifique mondiale
- Reconnaissance académique (meilleur article ACL 2024)
👎 Inconvénients
- Orientation recherche exigeant des compétences techniques
- Pas de produit clé en main pour utilisateurs non techniques
- Documentation tarifaire et offre commerciale absentes
- Déploiement et infrastructure à la charge de l'utilisateur
