Table of Contents
À une époque où les grandes entreprises d’IA se contentent de petites mises à jour de leur interface, Meta AI redéfinit cette culture. En lançant non pas un, mais TROIS modèles le même jour sous le nom de « Llama 4 ». Llama 4 se compose de trois modèles : Scout, Maverick et Behemoth. Chacun d’eux est conçu avec un objectif spécifique en tête, allant de l’implémentation légère au raisonnement de niveau entreprise. Et le meilleur dans tout ça ? Deux d’entre eux sont déjà disponibles pour le public.
Les Modèles Llama 4 : Scout, Maverick et Behemoth
Les modèles Llama 4 de Meta sont un groupe de modèles hautement efficaces, open-source et multi-modaux. En effet, Llama 4 Maverick a franchi la barre des 1400 sur le LMarena, surpassant des modèles tels que GPT 4o, DeepSeek V3, Gemini 2.0 Flash et plus encore ! Il est également remarquable que ces modèles prennent en charge une longueur de contexte de 10 millions de jetons, la plus longue de tous les LLM à poids ouverts jusqu’à présent.
Llama 4 Scout : Petit, Rapide et Intelligent
Scout est le modèle le plus efficace de la famille Llama 4. C’est un modèle rapide et léger, idéal pour les développeurs et chercheurs qui n’ont pas accès à de grands clusters GPU.
Caractéristiques clés de Llama 4 Scout :
- Architecture : Scout utilise une architecture de Mixture of Experts (MoE) avec 16 experts, activant seulement 2 à la fois, ce qui donne 17 milliards de paramètres actifs sur un total de 109 milliards. Il prend en charge une fenêtre de contexte de 10 millions de jetons.
- Efficacité : Le modèle fonctionne efficacement sur un seul GPU H100 utilisant la quantification Int4, ce qui en fait une option hautes performances à coût abordable.
- Performance : Scout surpasse des modèles concurrents tels que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 lors des tests de référence.
- Entraînement : Il a été pré-entraîné dans 200 langues, dont 100 avec plus d’un milliard de jetons chacune, et formé sur des données d’images et de vidéos diverses, prenant en charge jusqu’à 8 images dans une seule invite.
- Application : Grâce à un ancrage avancé des régions d’images, il fournit un raisonnement visuel précis. Cela le rend idéal pour des applications telles que les chatbots à mémoire de long contexte, les outils de résumé de code, les bots de questions-réponses éducatifs et les assistants optimisés pour les systèmes mobiles ou embarqués.
Llama 4 Maverick : Puissant et Fiable
Maverick est le modèle phare à poids ouvert. Il est conçu pour le raisonnement avancé, le codage et les applications multimodales. Bien qu’il soit plus puissant que Scout, il conserve son efficacité en utilisant la même stratégie MoE.
Caractéristiques clés de Llama 4 Maverick :
- Architecture : Maverick utilise une architecture Mixture of Experts avec 128 experts routés et un expert partagé, activant seulement 17 milliards de paramètres sur un total de 400 milliards lors de l’inférence. Il est entraîné en utilisant une fusion précoce des entrées texte et image et prend en charge jusqu’à 8 entrées d’images.
- Efficacité : Le modèle fonctionne efficacement sur un hôte H100 DGX ou peut être mis à l’échelle sur plusieurs GPU.
- Performance : Il atteint un score ELO de 1417 sur la LMSYS Chatbot Arena, surclassant GPT-4o et Gemini 2.0 Flash, tout en égalant DeepSeek v3.1 dans les capacités de raisonnement, de codage et multilingues.
- Entraînement : Maverick a été construit avec des techniques de pointe telles que le réglage des hyperparamètres MetaP, l’entraînement en précision FP8 et un ensemble de données de 30 trillions de jetons.
- Applications : Ses atouts le rendent idéal pour la programmation AI pair, la compréhension de documents de niveau entreprise et les systèmes de tutorat éducatifs.
Llama 4 Behemoth : Le Modèle Enseignant
Behemoth est le modèle le plus grand de Meta à ce jour. Bien qu’il ne soit pas disponible pour un usage public, il a joué un rôle essentiel dans l’aide à Scout et Maverick pour devenir ce qu’ils sont aujourd’hui.
Caractéristiques clés de Llama 4 Behemoth :
- Architecture : Behemoth est le modèle le plus grand et le plus puissant de Meta, utilisant une architecture Mixture of Experts avec 16 experts et activant 288 milliards de paramètres sur près de 2 trillions lors de l’inférence.
- Performance : Behemoth surpasse constamment GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks STEM comme MATH-500, GPQA Diamond et BIG-bench.
- Rôle : Il joue un rôle clé en tant que modèle enseignant, guidant Scout et Maverick à travers la co-distillation avec une nouvelle fonction de perte qui équilibre supervision douce et dure.
Comment Accéder aux Modèles Llama 4
Vous pouvez commencer à utiliser Llama 4 aujourd’hui via plusieurs plateformes faciles à utiliser, selon vos objectifs—qu’il s’agisse de recherche, de développement d’applications ou simplement d’essayer des capacités.
- llama.meta.com : C’est le hub officiel de Meta pour les modèles Llama. Il comprend des cartes de modèles, des articles, de la documentation technique et un accès aux poids ouverts pour Scout et Maverick.
- Hugging Face : Hugging Face héberge les versions prêtes à l’emploi de Llama 4. Vous pouvez tester les modèles directement dans le navigateur ou les déployer via la bibliothèque Transformers.
- Applications Meta : Les modèles Llama 4 alimentent également l’assistant AI de Meta disponible dans WhatsApp, Instagram, Messenger et Facebook.
Essayer les Modèles Llama 4 !
Il est très facile d’essayer les derniers modèles Llama 4 via les applications de Meta ou l’interface web. Même si cela n’est pas précisé, il est probable que certains modèles soient utilisés en arrière-plan. Nous avons testé le modèle Llama 4 pour plusieurs tâches.
Tâche 1 : Planification Créative
Invite : « Créer une stratégie de contenu pour les réseaux sociaux pour une marque de chaussures – Soles pour les aider à s’engager avec le public Gen Z ».
Sortie : Les modèles Llama 4 sont très rapides ! Le modèle a rapidement dressé un plan détaillé et concis pour la stratégie de médias sociaux.
Tâche 2 : Codage
Invite : « Écrire un programme python qui montre une balle rebondissant à l’intérieur d’un pentagone tournant, suivant les lois de la physique, augmentant sa vitesse chaque fois qu’elle rebondit sur un bord ».
Sortie : Le code généré contenait des erreurs.
Tâche 3 : Génération d’Images
Invite : « Créer une image d’une personne travaillant sur un ordinateur portable avec un document ouvert dans l’ordinateur avec le titre ‘llama 4’, l’image doit être prise de manière à ce que l’écran de la personne soit visible ».
Sortie : Le modèle a généré 4 images !
Performance des Benchmarks
Meta a partagé des résultats de benchmark détaillés pour les trois modèles Llama 4, reflétant leur performance en fonction de leurs objectifs de conception et de la taille des paramètres.