Table of Contents
NVIDIA dévoile NVLM 1.0, un modèle d’intelligence artificielle révolutionnaire
NVIDIA a récemment lancé son modèle d’intelligence artificielle (IA) open-source, NVLM 1.0, qui pourrait surpasser le célèbre GPT-4 d’OpenAI. Cette nouvelle famille de modèles de langage (LLM) multimodaux comprend le modèle phare NVLM-D-72B, qui intègre environ 72 milliards de paramètres.
Performances exceptionnelles en vision-langage
Selon l’équipe de recherche de NVIDIA, ce modèle d’IA excelle dans les tâches de vision-langage tout en améliorant les performances textuelles par rapport aux modèles de base précédents. Dans leur communiqué, les chercheurs affirment : « Nous présentons le NVLM 1.0, une famille de grands modèles de langage multimodaux avant-gardistes qui obtiennent des résultats de pointe dans les tâches vision-langage, rivalisant avec les modèles propriétaires comme GPT-4 et d’autres modèles accessibles librement. »
Ajustements des performances textuelles
Contrairement à d’autres modèles propriétaires dont l’efficacité textuelle diminue avec le temps, le modèle NVLM-D-72B a vu sa précision augmenter en moyenne de 4,3 points sur des benchmarks textuels de référence.
Capacités multimodales du NVLM-D-72B
Ce LLM a la capacité d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels, et même de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur la plateforme Hugging Face, et NVIDIA a annoncé qu’elle mettra bientôt à disposition le code d’entraînement associé.
Détails techniques du modèle NVLM 1.0
Le 17 septembre 2024, NVIDIA a présenté le NVLM 1.0, qui affiche des résultats remarquables dans les tâches de vision-langage, se positionnant au même niveau que des modèles propriétaires spécifiques comme GPT-4 et des modèles open source tels que Llama 3-V 405B. Notablement, le NVLM 1.0 démontre des performances améliorées pour le traitement de texte seul après une formation multimodale.
NVIDIA a mis en œuvre une analyse exhaustive comparant les LLM multimodaux à décodeur unique et les modèles basés sur l’attention croisée. S’appuyant sur les forces et les faiblesses de ces approches, la société a développé une nouvelle architecture optimisée pour l’efficacité de l’entraînement et pour renforcer les capacités de raisonnement multimodal.
Innovations dans l’entraînement
Pour enrichir les performances du modèle, NVIDIA a introduit une conception de ’tile-tagging’ 1-D pour les images à haute résolution dynamique, ce qui améliore significativement le raisonnement multimodal ainsi que les tâches liées à la reconnaissance optique des caractères (OCR).
Approche des données d’entraînement
L’équipe de NVIDIA a soigneusement préparé et documenté ses ensembles de données multimodales pour le pré-entraînement et le réglage supervisé. Leurs découvertes soulignent que la qualité des ensembles de données et la variété des tâches sont essentielles, même plus que l’échelle, durant la phase de pré-entraînement sur toutes les architectures. Le NVLM 1.0 tire parti d’une multimodalité de production, lui permettant d’exceller dans les tâches de vision et de langage tout en préservant les performances textuelles par rapport à ses homologues.
Accès à la communauté
Pour favoriser la recherche dans ce domaine, NVIDIA a rendu publics les poids du modèle et s’apprête à ouvrir le code à la communauté via leur site projet. Le modèle NVLM-D-72B et d’autres ressources seront également partagées sur Hugging Face, facilitant ainsi l’accès à cette technologie de pointe.
Résultats des tests de référence
NVIDIA a utilisé l’ancien Megatron-LM pour former son modèle, adaptant la base de code pour l’hébergement et l’inférence. Des différences numériques ont été observées entre les bases de code, mais elles restent dans les limites d’acceptabilité. Les résultats des benchmarks multimodaux sont disponibles et permettent une comparaison avec d’autres modèles.
Utilisation du modèle NVLM
Lors de la conversion du point de contrôle Megatron en Hugging Face, la base de code InternVL a été adaptée pour permettre le chargement et l’inférence multi-GPU. Un fichier Docker est aussi proposé pour faciliter la reproduction et l’intégration du modèle dans différents environnements de développement.
Conclusion sur l’innovation NVIDIA
En somme, le NVLM 1.0 de NVIDIA représente une avancée significative dans le domaine des modèles d’IA multimodaux, offrant des performances inégalées et un accès à une communauté de développeurs désireux d’explorer ces nouvelles possibilités. Avec un soutien accru de la recherche ouverte, NVIDIA continue de définir les contours de l’intelligence artificielle moderne.