Home Industrie et technologieMistral AI lance Pixtral 12B, un modèle multimodal innovant

Mistral AI lance Pixtral 12B, un modèle multimodal innovant

by Chia
France

Pixtral 12B : Le nouveau modèle de Mistral AI qui impressionne l’industrie

La start-up française Mistral AI, reconnue pour son innovation dans le domaine de l’intelligence artificielle, a récemment dévoilé son dernier modèle, Pixtral 12B. Contrairement à d’autres technologies qui se concentrent sur la génération d’images, Pixtral 12B se spécialise dans l’analyse d’images et de textes. Grâce à un entraînement basé sur des données multimodales, ce modèle surpasse ses concurrents tels que ceux développés par Google, Microsoft et Anthropic.

Une avancée majeure dans les modèles multimodaux

Mistral AI ne s’arrête pas là. Après son partenariat avec Nvidia en juillet dernier pour créer le modèle Mistral NeMo, la start-up s’attaque désormais aux modèles multimodaux avec Pixtral 12B. En intégrant 12 milliards de paramètres, Pixtral est conçu pour comprendre à la fois des images et des documents, ce qui lui confère une grande polyvalence dans des tâches telles que l’analyse de graphiques, la réponse à des questions sur des contenus textuels et le raisonnement multimodal.

Des performances remarquables

Pixtral 12B affiche des performances impressionnantes, obtenant un score de 52,5 % sur le benchmark de raisonnement MMMU. Cela lui permet de devancer plusieurs modèles plus conséquents, tels que Gemini Flash-8B et Claude-3 Haiku. De plus, il égalise ou dépasse les performances de modèles comme Qwen2-VL 7B et LLaVa-OneVision 7B, affichant une amélioration de 20 % dans les tests IF-Eval et MT-Bench.

Une architecture innovante pour des images variées

Le modèle Pixtral a été développé pour remplacer Mistral NeMo 12B et possède une architecture unique. Composé d’un encodeur de vision de 400 millions de paramètres et d’un décodeur multimodal de 12 milliards de paramètres, sa conception lui permet de prédire le prochain jeton de texte à partir de séquences de texte et d’images. Cette approche permet à Pixtral d’analyser des images sans contrainte de taille, grâce à une fenêtre contextuelle étendue de 128 000 tokens.

Un potentiel inégalé pour l’analyse d’images

Pixtral est capable de traiter des diagrammes et des graphiques complexes en haute résolution, tout en assurant une rapidité d’inférence sur des images plus petites. Mistral AI souligne qu’à la différence de nombreux modèles open source précédents, Pixtral ne compromet pas les performances textuelles lors de l’exécution de tâches multimodales, garantissant ainsi une analyse précise et efficace.

Disponibilité et intégration

Le modèle Pixtral 12B est dès à présent accessible sur l’interface de conversation Le Chat et via la console de Mistral AI. Les utilisateurs peuvent facilement choisir Pixtral dans la liste des modèles, télécharger une image et interagir avec celle-ci. En outre, le modèle peut être intégré dans diverses applications par le biais d’une API, facilitant son adoption dans différents flux de travail.

Dans le cadre de cette annonce, Mistral AI a également révélé de nouveaux tarifs pour l’utilisation de ses modèles et une version mise à jour de Mistral Small, offrant des solutions économiques et performantes pour divers cas d’utilisation tels que la traduction et l’analyse des sentiments.

Intelligence Artificielle| Pixtral B| Mistral Ai| Multimodal| France| IA| MistralAI| PixtralB

You may also like

Leave a Comment