More

    Alternatives aux Transformers en IA : Mamba, MoE, RWKV – France

    France

    Les modèles de langage alternatifs aux Transformers, tels que Mamba, Mixture-of-Experts (MoE) et RWKV, émergent comme des solutions innovantes dans le domaine de l’intelligence artificielle. Alors que les architectures basées sur les Transformers, popularisées depuis 2017, continuent de dominer, leurs limites deviennent plus claires avec l’évolution des besoins en matière de traitement du langage naturel.

    Mamba : l’efficacité linéaire des state space models

    L’architecture Mamba, développée en 2023 par une équipe du MIT et de Princeton, se présente comme une alternative prometteuse aux Transformers. Appartenant à la famille des State Space Models (SSM), Mamba utilise un système récurrent structuré pour traiter les informations, remplaçant ainsi le mécanisme d’attention traditionnel. Cela permet au modèle de fonctionner de manière linéaire en termes de complexité mémoire, contrairement aux Transformers qui souffrent d’une complexité quadratique.

    Grâce à une innovation clé – un système récurrent sélectif – Mamba peut « oublier » les informations inutiles et se concentrer sur les signaux pertinents. Ce modèle est capable de gérer des séquences très longues, jusqu’à 1 million de tokens, tout en maintenant des performances compétitives. Par exemple, Mamba-3B surpasse des modèles de taille équivalente et rivalise même avec des modèles de plus grande taille, tout en offrant une vitesse d’inférence jusqu’à cinq fois supérieure.

    Des entreprises comme Mistral AI, avec son modèle Codestral-Mamba, exploitent cette technologie pour améliorer la génération de code. AI21 Labs, quant à lui, a introduit Jamba, un modèle qui combine Mamba et la technologie MoE.

    Mixture-of-Experts : spécialisation dynamique pour réduire les coûts

    Les architectures Mixture-of-Experts (MoE) représentent une approche qui active uniquement une petite partie du réseau lors de chaque étape, permettant ainsi d’optimiser le coût d’inférence. Par exemple, un modèle MoE de 40 milliards de paramètres n’active que 10 % des paramètres à chaque requête, offrant une performance équivalente à celle d’un modèle classique de 4 milliards de paramètres, mais avec une qualité bien supérieure.

    Mistral a été pionnier dans l’industrialisation de cette approche avec son modèle Mixtral 8×7B, qui utilise huit experts de 7 milliards de paramètres, avec seulement deux activés par token. Ce modèle rivalise avec des systèmes plus massifs tout en offrant de meilleures latences et une efficacité mémoire améliorée. AI21 Labs applique également MoE dans son modèle Jamba, ce qui renforce son adaptabilité.

    RWKV : le retour des RNNs, modernisés

    Contrairement aux modèles basés sur les Transformers, RWKV propose une réinvention des réseaux de neurones récurrents (RNN). Son acronyme, Receptance Weighted Key Value, souligne sa nature à la fois récurrente et attentionnelle. RWKV fonctionne comme un Transformer durant l’entraînement, tout en adoptant les caractéristiques d’un RNN lors de l’inférence. Cela lui permet d’effectuer une génération séquentielle rapide, sans recharger ou recalculer l’historique à chaque étape.

    En tant que projet communautaire open source, RWKV a connu un essor rapide grâce à sa légèreté. Des versions récentes, telles que RWKV-5 World, peuvent fonctionner sur des CPU avec moins de 3 Go de RAM, ce qui les rend idéales pour des applications locales ou des chatbots. Bien qu’aucune grande entreprise ne mise encore sur RWKV, des projets comme LM Studio et LocalAI commencent à l’intégrer, ce qui témoigne d’un intérêt croissant pour cette architecture alternative.

    Vers des architectures hybrides et modulaires

    La convergence de modèles comme Mamba, MoE et RWKV semble inévitable. Par exemple, le modèle Jamba d’AI21 Labs illustre cette tendance, intégrant des blocs de différentes architectures pour tirer parti de leurs forces respectives. Certains chercheurs envisagent même un « Transformer 2.0 » qui combinerait les mécanismes de linéarité de Mamba, d’inférence streamable de RWKV et d’adaptation dynamique des MoE.

    À mesure que les modèles de langage s’intègrent dans des millions d’appareils et de services, cette diversité architecturale devient essentielle. Le monopole des Transformers pourrait toucher à sa fin, non pas par obsolescence, mais parce que les défis contemporains de l’IA exigent une approche plus modulaire et scalable.

    Modèles de langage : quelles alternatives aux Transformers

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Taïwan: Lai réaffirme que l’île ne dépend pas de Pékin

    Lai Ching-te a réaffirmé que Taïwan n’appartenait pas à Pékin et que seul le peuple taïwanais pouvait décider de l’avenir de l’île. Une déclaration qui relance les questions sur l’équilibre entre Taipei, Washington et la Chine.

    Google, UE et parasite SEO : le vrai combat autour du site reputation abuse

    Google propose des concessions à Bruxelles sur sa politique site reputation abuse. Derrière le parasite SEO, un bras de fer sur la visibilité des médias.

    Attaque de drones sur Moscou: ce que l’on sait de la plus forte vague revendiquée depuis plus d’un an

    La Russie dit avoir subi sa plus importante attaque de drones sur Moscou depuis plus d’un an, avec au moins quatre morts selon Reuters.

    Ebola: l’OMS déclenche son plus haut niveau d’alerte internationale pour la RDC et l’Ouganda

    L’OMS a élevé l’épidémie d’Ebola en RDC et en Ouganda au rang d’urgence de santé publique de portée internationale.

    OpenAI et Malte lancent une expérimentation inédite: un an de ChatGPT Plus pour les habitants formés à l’IA

    Malte veut démocratiser l’usage de l’IA avec un an d’accès à ChatGPT Plus après un parcours de formation gratuit.

    Tunisie : des manifestants remettent la pression sur Kaïs Saïed au cœur d’une crise politique et sociale

    La mobilisation de samedi à Tunis relance les inquiétudes sur les libertés publiques et sur l’aggravation de la crise économique tunisienne.

    Hantavirus : un cas confirmé au Canada, faut-il s’inquiéter en France ? Ce que l’on sait des symptômes, de la transmission et du risque...

    Après un nouveau cas confirmé au Canada, voici ce que disent Reuters, l’OMS, l’ECDC, le CDC, le ministère de la Santé et l’Institut Pasteur sur le risque réel en France.

    SpaceX : BlackRock aurait discuté d’un investissement géant pour l’IPO, ce que l’on sait vraiment

    Un possible investissement de BlackRock dans l’IPO de SpaceX alimente les marchés, mais le dossier reste au stade de discussions rapportées et non confirmées officiellement.

    à Lire

    Categories