Accueil ActualitéAlternatives aux Transformers en IA : Mamba, MoE, RWKV – France

Alternatives aux Transformers en IA : Mamba, MoE, RWKV – France

par Sara
France

Les modèles de langage alternatifs aux Transformers, tels que Mamba, Mixture-of-Experts (MoE) et RWKV, émergent comme des solutions innovantes dans le domaine de l’intelligence artificielle. Alors que les architectures basées sur les Transformers, popularisées depuis 2017, continuent de dominer, leurs limites deviennent plus claires avec l’évolution des besoins en matière de traitement du langage naturel.

Mamba : l’efficacité linéaire des state space models

L’architecture Mamba, développée en 2023 par une équipe du MIT et de Princeton, se présente comme une alternative prometteuse aux Transformers. Appartenant à la famille des State Space Models (SSM), Mamba utilise un système récurrent structuré pour traiter les informations, remplaçant ainsi le mécanisme d’attention traditionnel. Cela permet au modèle de fonctionner de manière linéaire en termes de complexité mémoire, contrairement aux Transformers qui souffrent d’une complexité quadratique.

Grâce à une innovation clé – un système récurrent sélectif – Mamba peut « oublier » les informations inutiles et se concentrer sur les signaux pertinents. Ce modèle est capable de gérer des séquences très longues, jusqu’à 1 million de tokens, tout en maintenant des performances compétitives. Par exemple, Mamba-3B surpasse des modèles de taille équivalente et rivalise même avec des modèles de plus grande taille, tout en offrant une vitesse d’inférence jusqu’à cinq fois supérieure.

Des entreprises comme Mistral AI, avec son modèle Codestral-Mamba, exploitent cette technologie pour améliorer la génération de code. AI21 Labs, quant à lui, a introduit Jamba, un modèle qui combine Mamba et la technologie MoE.

Mixture-of-Experts : spécialisation dynamique pour réduire les coûts

Les architectures Mixture-of-Experts (MoE) représentent une approche qui active uniquement une petite partie du réseau lors de chaque étape, permettant ainsi d’optimiser le coût d’inférence. Par exemple, un modèle MoE de 40 milliards de paramètres n’active que 10 % des paramètres à chaque requête, offrant une performance équivalente à celle d’un modèle classique de 4 milliards de paramètres, mais avec une qualité bien supérieure.

Mistral a été pionnier dans l’industrialisation de cette approche avec son modèle Mixtral 8×7B, qui utilise huit experts de 7 milliards de paramètres, avec seulement deux activés par token. Ce modèle rivalise avec des systèmes plus massifs tout en offrant de meilleures latences et une efficacité mémoire améliorée. AI21 Labs applique également MoE dans son modèle Jamba, ce qui renforce son adaptabilité.

RWKV : le retour des RNNs, modernisés

Contrairement aux modèles basés sur les Transformers, RWKV propose une réinvention des réseaux de neurones récurrents (RNN). Son acronyme, Receptance Weighted Key Value, souligne sa nature à la fois récurrente et attentionnelle. RWKV fonctionne comme un Transformer durant l’entraînement, tout en adoptant les caractéristiques d’un RNN lors de l’inférence. Cela lui permet d’effectuer une génération séquentielle rapide, sans recharger ou recalculer l’historique à chaque étape.

En tant que projet communautaire open source, RWKV a connu un essor rapide grâce à sa légèreté. Des versions récentes, telles que RWKV-5 World, peuvent fonctionner sur des CPU avec moins de 3 Go de RAM, ce qui les rend idéales pour des applications locales ou des chatbots. Bien qu’aucune grande entreprise ne mise encore sur RWKV, des projets comme LM Studio et LocalAI commencent à l’intégrer, ce qui témoigne d’un intérêt croissant pour cette architecture alternative.

Vers des architectures hybrides et modulaires

La convergence de modèles comme Mamba, MoE et RWKV semble inévitable. Par exemple, le modèle Jamba d’AI21 Labs illustre cette tendance, intégrant des blocs de différentes architectures pour tirer parti de leurs forces respectives. Certains chercheurs envisagent même un « Transformer 2.0 » qui combinerait les mécanismes de linéarité de Mamba, d’inférence streamable de RWKV et d’adaptation dynamique des MoE.

À mesure que les modèles de langage s’intègrent dans des millions d’appareils et de services, cette diversité architecturale devient essentielle. Le monopole des Transformers pourrait toucher à sa fin, non pas par obsolescence, mais parce que les défis contemporains de l’IA exigent une approche plus modulaire et scalable.

Modèles de langage : quelles alternatives aux Transformers

Cela pourrait vous intéresser

Laisser un commentaire