More

    NVIDIA LANCE NVLM 1.0 : Un Modèle IA Révolutionnaire

    France, USA

    NVIDIA dévoile NVLM 1.0, un modèle d’intelligence artificielle révolutionnaire

    NVIDIA a récemment lancé son modèle d’intelligence artificielle (IA) open-source, NVLM 1.0, qui pourrait surpasser le célèbre GPT-4 d’OpenAI. Cette nouvelle famille de modèles de langage (LLM) multimodaux comprend le modèle phare NVLM-D-72B, qui intègre environ 72 milliards de paramètres.

    Performances exceptionnelles en vision-langage

    Selon l’équipe de recherche de NVIDIA, ce modèle d’IA excelle dans les tâches de vision-langage tout en améliorant les performances textuelles par rapport aux modèles de base précédents. Dans leur communiqué, les chercheurs affirment : « Nous présentons le NVLM 1.0, une famille de grands modèles de langage multimodaux avant-gardistes qui obtiennent des résultats de pointe dans les tâches vision-langage, rivalisant avec les modèles propriétaires comme GPT-4 et d’autres modèles accessibles librement. »

    Ajustements des performances textuelles

    Contrairement à d’autres modèles propriétaires dont l’efficacité textuelle diminue avec le temps, le modèle NVLM-D-72B a vu sa précision augmenter en moyenne de 4,3 points sur des benchmarks textuels de référence.

    Capacités multimodales du NVLM-D-72B

    Ce LLM a la capacité d’interpréter des graphiques et des tableaux, d’analyser des images, de comprendre des mèmes, de coder des logiciels, et même de résoudre des problèmes mathématiques. Les poids du modèle sont disponibles publiquement sur la plateforme Hugging Face, et NVIDIA a annoncé qu’elle mettra bientôt à disposition le code d’entraînement associé.

    Détails techniques du modèle NVLM 1.0

    Le 17 septembre 2024, NVIDIA a présenté le NVLM 1.0, qui affiche des résultats remarquables dans les tâches de vision-langage, se positionnant au même niveau que des modèles propriétaires spécifiques comme GPT-4 et des modèles open source tels que Llama 3-V 405B. Notablement, le NVLM 1.0 démontre des performances améliorées pour le traitement de texte seul après une formation multimodale.

    NVIDIA a mis en œuvre une analyse exhaustive comparant les LLM multimodaux à décodeur unique et les modèles basés sur l’attention croisée. S’appuyant sur les forces et les faiblesses de ces approches, la société a développé une nouvelle architecture optimisée pour l’efficacité de l’entraînement et pour renforcer les capacités de raisonnement multimodal.

    Innovations dans l’entraînement

    Pour enrichir les performances du modèle, NVIDIA a introduit une conception de ’tile-tagging’ 1-D pour les images à haute résolution dynamique, ce qui améliore significativement le raisonnement multimodal ainsi que les tâches liées à la reconnaissance optique des caractères (OCR).

    Approche des données d’entraînement

    L’équipe de NVIDIA a soigneusement préparé et documenté ses ensembles de données multimodales pour le pré-entraînement et le réglage supervisé. Leurs découvertes soulignent que la qualité des ensembles de données et la variété des tâches sont essentielles, même plus que l’échelle, durant la phase de pré-entraînement sur toutes les architectures. Le NVLM 1.0 tire parti d’une multimodalité de production, lui permettant d’exceller dans les tâches de vision et de langage tout en préservant les performances textuelles par rapport à ses homologues.

    Accès à la communauté

    Pour favoriser la recherche dans ce domaine, NVIDIA a rendu publics les poids du modèle et s’apprête à ouvrir le code à la communauté via leur site projet. Le modèle NVLM-D-72B et d’autres ressources seront également partagées sur Hugging Face, facilitant ainsi l’accès à cette technologie de pointe.

    Résultats des tests de référence

    NVIDIA a utilisé l’ancien Megatron-LM pour former son modèle, adaptant la base de code pour l’hébergement et l’inférence. Des différences numériques ont été observées entre les bases de code, mais elles restent dans les limites d’acceptabilité. Les résultats des benchmarks multimodaux sont disponibles et permettent une comparaison avec d’autres modèles.

    Utilisation du modèle NVLM

    Lors de la conversion du point de contrôle Megatron en Hugging Face, la base de code InternVL a été adaptée pour permettre le chargement et l’inférence multi-GPU. Un fichier Docker est aussi proposé pour faciliter la reproduction et l’intégration du modèle dans différents environnements de développement.

    Conclusion sur l’innovation NVIDIA

    En somme, le NVLM 1.0 de NVIDIA représente une avancée significative dans le domaine des modèles d’IA multimodaux, offrant des performances inégalées et un accès à une communauté de développeurs désireux d’explorer ces nouvelles possibilités. Avec un soutien accru de la recherche ouverte, NVIDIA continue de définir les contours de l’intelligence artificielle moderne.

    Nvidia| Ia| Nvlm | Gpt-| Intelligence Artificielle| Multimodal| France| Usa| Technologie| GPT| NVIDIA NVLM

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Chine-États-Unis : Pékin évoque des baisses de droits de douane et un accès élargi au marché agricole après le sommet Trump-Xi

    Pékin affirme vouloir avancer sur des baisses tarifaires, l’accès au marché et les achats agricoles américains, tout en rappelant que les accords restent préliminaires.

    Hantavirus : le séquençage n’indique pas de variant plus transmissible ou plus dangereux, ce que cela veut dire

    Le séquençage complet du virus détecté chez la passagère française du MV Hondius n’indique pas l’émergence d’un variant plus dangereux. Explications utiles et sans alarmisme.

    Affaire Khashoggi : la justice française ouvre une nouvelle enquête sensible

    Après une décision de la cour d’appel de Paris, la justice française ouvre une information judiciaire dans l’affaire Jamal Khashoggi.

    Hantavirus : symptômes, transmission et vrai niveau de risque

    Que sait-on vraiment du hantavirus après les dernières mises à jour de l’OMS, du CDC et de l’ECDC ? Symptômes, transmission, prévention et niveau de risque en Europe.

    Trump, Xi et Ormuz : ce que Pékin dit — et ne dit pas — sur la pression contre l’Iran

    Washington assure que Xi soutient la réouverture du détroit d’Ormuz, mais la Chine garde une ligne publique plus prudente et centrée sur la désescalade.

    Hantavirus en France : où circule-t-il et comment l’éviter

    Le cluster international lié au MV Hondius a replacé le hantavirus dans l’actualité. En France, le vrai enjeu reste de comprendre les zones d’exposition, les symptômes à surveiller et les bons gestes de prévention.

    Épidémie d’Ebola en RDC: 80 morts et une mobilisation d’urgence autour de l’Ituri

    Une nouvelle flambée d’Ebola en Ituri, dans l’est de la RDC, pousse les autorités et les agences sanitaires à accélérer la réponse d’urgence.

    Trump quitte Pékin sans avancée majeure, malgré un ton chaleureux avec Xi Jinping

    Le voyage de Donald Trump en Chine s’est terminé sans percée majeure sur le commerce ni sur l’Iran, même si Xi Jinping est attendu aux États-Unis à l’automne.

    à Lire

    Categories