More

    NVIDIA LANCE NVLM 1.0 : Un Modèle IA Révolutionnaire

    France, USA

    NVIDIA dévoile NVLM 1.0, un modèle d’intelligence artificielle révolutionnaire

    NVIDIA a récemment lancé son modèle d’intelligence artificielle (IA) open-source, NVLM 1.0, qui pourrait surpasser le célèbre GPT-4 d’OpenAI. Cette nouvelle famille de modèles de langage (LLM) multimodaux comprend le modèle phare NVLM-D-72B, qui intègre environ 72 milliards de paramètres.

    Performances exceptionnelles en vision-langage

    Selon l’équipe de recherche de NVIDIA, ce modèle d’IA excelle dans les tâches de vision-langage tout en améliorant les performances textuelles par rapport aux modèles de base précédents. Dans leur communiqué, les chercheurs affirment : « Nous présentons le NVLM 1.0, une famille de grands modèles de langage multimodaux avant-gardistes qui obtiennent des résultats de pointe dans les tâches vision-langage, rivalisant avec les modèles propriétaires comme GPT-4 et d’autres modèles accessibles librement. »

    Ajustements des performances textuelles

    Contrairement à d’autres modèles propriétaires dont l’efficacité textuelle diminue avec le temps, le modèle NVLM-D-72B a vu sa précision augmenter en moyenne de 4,3 points sur des benchmarks textuels de référence.

    Capacités multimodales du NVLM-D-72B

    Ce LLM a la capacité d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels, et même de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur la plateforme Hugging Face, et NVIDIA a annoncé qu’elle mettra bientôt à disposition le code d’entraînement associé.

    Détails techniques du modèle NVLM 1.0

    Le 17 septembre 2024, NVIDIA a présenté le NVLM 1.0, qui affiche des résultats remarquables dans les tâches de vision-langage, se positionnant au même niveau que des modèles propriétaires spécifiques comme GPT-4 et des modèles open source tels que Llama 3-V 405B. Notablement, le NVLM 1.0 démontre des performances améliorées pour le traitement de texte seul après une formation multimodale.

    NVIDIA a mis en œuvre une analyse exhaustive comparant les LLM multimodaux à décodeur unique et les modèles basés sur l’attention croisée. S’appuyant sur les forces et les faiblesses de ces approches, la société a développé une nouvelle architecture optimisée pour l’efficacité de l’entraînement et pour renforcer les capacités de raisonnement multimodal.

    Innovations dans l’entraînement

    Pour enrichir les performances du modèle, NVIDIA a introduit une conception de ’tile-tagging’ 1-D pour les images à haute résolution dynamique, ce qui améliore significativement le raisonnement multimodal ainsi que les tâches liées à la reconnaissance optique des caractères (OCR).

    Approche des données d’entraînement

    L’équipe de NVIDIA a soigneusement préparé et documenté ses ensembles de données multimodales pour le pré-entraînement et le réglage supervisé. Leurs découvertes soulignent que la qualité des ensembles de données et la variété des tâches sont essentielles, même plus que l’échelle, durant la phase de pré-entraînement sur toutes les architectures. Le NVLM 1.0 tire parti d’une multimodalité de production, lui permettant d’exceller dans les tâches de vision et de langage tout en préservant les performances textuelles par rapport à ses homologues.

    Accès à la communauté

    Pour favoriser la recherche dans ce domaine, NVIDIA a rendu publics les poids du modèle et s’apprête à ouvrir le code à la communauté via leur site projet. Le modèle NVLM-D-72B et d’autres ressources seront également partagées sur Hugging Face, facilitant ainsi l’accès à cette technologie de pointe.

    Résultats des tests de référence

    NVIDIA a utilisé l’ancien Megatron-LM pour former son modèle, adaptant la base de code pour l’hébergement et l’inférence. Des différences numériques ont été observées entre les bases de code, mais elles restent dans les limites d’acceptabilité. Les résultats des benchmarks multimodaux sont disponibles et permettent une comparaison avec d’autres modèles.

    Utilisation du modèle NVLM

    Lors de la conversion du point de contrôle Megatron en Hugging Face, la base de code InternVL a été adaptée pour permettre le chargement et l’inférence multi-GPU. Un fichier Docker est aussi proposé pour faciliter la reproduction et l’intégration du modèle dans différents environnements de développement.

    Conclusion sur l’innovation NVIDIA

    En somme, le NVLM 1.0 de NVIDIA représente une avancée significative dans le domaine des modèles d’IA multimodaux, offrant des performances inégalées et un accès à une communauté de développeurs désireux d’explorer ces nouvelles possibilités. Avec un soutien accru de la recherche ouverte, NVIDIA continue de définir les contours de l’intelligence artificielle moderne.

    Nvidia| Ia| Nvlm | Gpt-| Intelligence Artificielle| Multimodal| France| Usa| Technologie| GPT| NVIDIA NVLM

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Canicule : un troisième épisode attendu en France à partir du week-end

    Météo France annonce un troisième épisode caniculaire à partir du week-end. Les températures baisseront mercredi et jeudi avant de remonter vendredi dans la moi

    Perquisitions au RN dans une enquête européenne sur les fonds du groupe ID

    Le parquet de l'Union européenne mène des mesures d'enquête en France sur l'usage de fonds européens par le groupe Identité et démocratie, où siégeait le RN. De

    Pénurie d’aspirine cardio : l’ANSM autorise la substitution par les pharmaciens jusqu’en 2027

    L’ANSM alerte sur de fortes tensions d’approvisionnement sur les comprimés gastro-résistants d’aspirine 75 et 100 mg. Les pharmaciens peuvent substituer librement les dosages.

    Sénat : la réintroduction de l’acétamipride et du flupyradifurone votée contre l’avis du gouvernement

    Le Sénat a voté dans la nuit du 29 au 30 juin la réintroduction temporaire de l’acétamipride et du flupyradifurone. Le texte doit encore passer à l’Assemblée nationale.

    1er juillet 2026 : hausse du gaz, congé de naissance, taxe colis — ce qui change

    Prix du gaz en hausse de 7,4 %, nouveau congé de naissance indemnisé, taxe forfaitaire de 3 € sur les colis hors UE : tout ce qui change pour les ménages au 1er juillet 2026.

    Inflation zone euro : 3,2 % en mai, mais la France passe au-dessus de l’Allemagne pour la première fois

    L'inflation en zone euro s'est élevée à 3,2 % sur un an en mai 2026 selon la confirmation Eurostat du 17 juin. Pour la première fois, la France (2,8 %) affiche un taux supérieur à celui de l'Allemagne (2,7 %), tandis que l'Espagne (3,6 %) et l'Italie (3,3 %) creusent l'écart avec le nord de la zone euro.

    Provinciales en Nouvelle-Calédonie : les loyalistes progressent, mais le Congrès reste sans majorité

    Résultats des élections provinciales du 28 juin 2026 en Nouvelle-Calédonie : les loyalistes progressent (24 sièges sur 54) mais restent sous la majorité absolue. Indépendantistes 26 sièges en trois groupes, Éveil océanien en position d'arbitre.

    à Lire

    Categories