Table of Contents
Nvidia pourrait être contraint de retarder la montée en volume de ses serveurs d’IA de prochaine génération, basés sur les plateformes B200 et GB200, en raison de problèmes de surchauffe, de consommation d’énergie et de la nécessité d’optimiser les interconnexions. Selon un rapport de TrendForce, la production de masse et les expéditions maximales des machines Blackwell pourraient ne pas avoir lieu avant le milieu de l’année 2025, entraînant ainsi un retard d’environ six mois. Nvidia n’a pas encore confirmé ni démenti ces allégations.
Retard dans la production des serveurs Blackwell
Comme prévu, Nvidia et ses partenaires ne pourront expédier qu’une quantité limitée de serveurs basés sur Blackwell en 2024, car l’entreprise devra utiliser son B200 à faible rendement pour ces appareils. Toutefois, Dell a déjà commencé à expédier des racks de serveurs Blackwell.
Bien que des versions améliorées des processeurs B200 de Nvidia soient entrées en production de masse en octobre, et donc seront disponibles en janvier, TrendForce ne s’attend pas à ce que la production des serveurs Blackwell augmente rapidement. En raison de la surchauffe, de la consommation d’énergie et des exigences pour des interconnexions plus rapides, la production et les envois maximaux des B200 et GB200 ne devraient avoir lieu qu’entre le deuxième et le troisième trimestre de 2025.
Consommation d’énergie des racks Nvidia
Il a été rapporté qu’un rack Nvidia NVL72 basé sur la plateforme GB200, avec 72 GPU B200, consommerait 120 kW d’énergie, ce qui est déjà nettement supérieur aux racks de serveurs d’IA actuels (la puissance typique d’un rack haute densité est d’environ 20 kW, tandis qu’un rack basé sur H100 consomme environ 40 kW). TrendForce affirme maintenant que Nvidia a mis à jour les spécifications de l’appareil, et qu’il consomme désormais 140 kW, ce qui dépasse ce que les centres de données typiques peuvent fournir à un seul rack.
Problèmes de surchauffe et de refroidissement
Les GPU Blackwell de Nvidia seraient en effet sujets à la surchauffe dans des serveurs équipés de 72 processeurs, même lorsque les racks consommaient jusqu’à 120 kW par rack. Ce problème a contraint Nvidia à réviser à plusieurs reprises ses conceptions de racks, car la surchauffe réduit non seulement les performances des GPU mais risque également d’endommager le matériel. Une consommation de 140 kW par rack implique encore plus de modifications nécessaires aux conceptions des serveurs, ce qui pourrait entraîner des retards.
Une consommation d’énergie accrue entraîne également des besoins en refroidissement supplémentaires. Le refroidissement liquide est essentiel pour les serveurs Blackwell, mais les unités de distribution de réfrigérant modernes (CDUs) ne peuvent gérer que 60 kW à 80 kW de puissance thermique. À cet égard, les fournisseurs de systèmes de refroidissement optimisent les conceptions de plaques froides et visent à doubler ou tripler la capacité des CDUs. TrendForce prévoit que les performances des CDUs en ligne liquide à liquide dépasseront 1,3 mW, avec des avancées supplémentaires possibles, de sorte que l’élimination de la chaleur excessive ne posera finalement plus de problème majeur.