Google a dévoilé Gemma 4, sa nouvelle famille de modèles d’intelligence artificielle open source, conçue pour rivaliser avec les meilleurs systèmes propriétaires tout en restant accessible au plus grand nombre. Placée sous licence Apache 2.0, cette quatrième génération marque un tournant stratégique pour le géant américain, qui mise sur l’ouverture pour accélérer l’adoption de l’IA dans les entreprises et sur les appareils mobiles.
Présentée début avril par Clement Farabet, vice-président de la recherche chez Google DeepMind, et Olivier Lacombe, chef de produit, cette nouvelle gamme se décline en quatre tailles : 2 milliards de paramètres effectifs (E2B), 4 milliards (E4B), 26 milliards en mélange d’experts (MoE) et 31 milliards en modèle dense. L’objectif affiché : offrir des performances de pointe sur une grande variété de matériels, du smartphone aux serveurs d’entreprise.
Des performances qui défient des modèles vingt fois plus gros
Sur le classement Arena AI, référence indépendante du secteur, le modèle Gemma 4 de 31 milliards de paramètres se hisse au troisième rang mondial des modèles open source, surpassant des systèmes jusqu’à vingt fois plus volumineux. La version 26 milliards MoE, elle, occupe la sixième place tout en n’activant que 3,8 milliards de paramètres lors de l’inférence, ce qui lui confère une rapidité d’exécution exceptionnelle.
Ces prouesses techniques s’appuient sur les mêmes travaux de recherche que Gemini 3, le modèle propriétaire phare de Google. « Gemma 4 est la famille de modèles la plus performante que vous puissiez exécuter sur votre propre matériel », assure l’équipe de Google DeepMind. Une affirmation qui illustre l’ambition de démocratiser l’accès à une IA de niveau professionnel.
Raisonnement avancé, code et agents autonomes
Au-delà de la simple conversation, Gemma 4 excelle dans trois domaines clés pour les développeurs. Le raisonnement avancé permet une planification multi-étapes et une logique approfondie, avec des progrès significatifs dans les tests de mathématiques et de suivi d’instructions complexes. La génération de code transforme un poste de travail classique en assistant de programmation local, sans connexion cloud requise.
Mais c’est surtout la prise en charge native des workflows agentiques qui distingue cette génération : appels de fonctions, sortie JSON structurée et instructions système permettent de construire des agents autonomes capables d’interagir avec différents outils et API. Une capacité qui intéresse particulièrement les entreprises souhaitant automatiser des processus métier sans dépendre d’infrastructures externes.
L’IA sur mobile franchit un cap
Les modèles E2B et E4B ont été spécifiquement conçus pour les appareils mobiles et l’Internet des objets. Développés en collaboration étroite avec les équipes Google Pixel, Qualcomm et MediaTek, ils fonctionnent entièrement hors ligne avec une latence quasi nulle sur les smartphones, Raspberry Pi et autres appareils embarqués. Ils intègrent en outre une entrée audio native pour la reconnaissance vocale.
Tous les modèles de la gamme traitent nativement la vidéo et les images, avec des performances remarquables en reconnaissance optique de caractères (OCR) et en compréhension de graphiques. La fenêtre de contexte atteint 128 000 tokens pour les modèles mobiles et 256 000 tokens pour les grands modèles, permettant de traiter des dépôts de code entiers ou de longs documents en une seule requête.
Un écosystème ouvert et immédiatement disponible
Fidèle à sa volonté d’ouverture, Google a obtenu un support immédiat des principaux acteurs de l’écosystème : Hugging Face, Ollama, NVIDIA NIM, vLLM, llama.cpp et LM Studio sont disponibles dès le premier jour. Les développeurs peuvent expérimenter gratuitement via Google AI Studio, ou télécharger les poids des modèles sur Hugging Face et Kaggle.
Pour les déploiements en production, Google Cloud propose plusieurs options : Vertex AI, Cloud Run avec GPU, GKE et même un cloud souverain pour les charges de travail réglementées. « La sortie de Gemma 4 sous licence Apache 2.0 est une étape majeure », s’est réjoui Clément Delangue, co-fondateur et PDG de Hugging Face.
Open source et proprietary : le bon équilibre
Si l’engouement pour les modèles open source est réel — plus de 75 % des entreprises utilisent désormais au moins deux familles de LLM, mêlant modèles fermés et ouverts selon un rapport Databricks 2026 —, les analystes appellent à la prudence. « Les DSI devraient considérer cela comme un portefeuille où ils créent un mélange de modèles ouverts et propriétaires, et trouver le bon équilibre pour leurs cas d’usage », conseille Chirag Dekate, analyste chez Gartner.
La question de la pérennité des modèles open source reste en suspens, alors que le chinois Alibaba a récemment fait basculer sa populaire famille Qwen vers un modèle propriétaire. Une incertitude qui n’empêche pas Google d’afficher ses ambitions : avec plus de 400 millions de téléchargements depuis la première génération et une communauté de plus de 100 000 variantes, la « Gemmaverse » est déjà une réalité.