Table of Contents
Depuis plus d’une décennie, les entreprises parient sur une règle d’or fascinante : les systèmes d’intelligence artificielle continueraient de devenir plus intelligents à condition de les rendre toujours plus grands. Ce n’était pas simplement un espoir infondé. En 2017, des chercheurs de l’entreprise technologique chinoise Baidu ont démontré que l’ajout de données et de puissance de calcul dans les algorithmes d’apprentissage machine entraînait des améliorations mathématiquement prévisibles, que le système soit conçu pour reconnaître des images, des discours ou générer du langage. En 2020, OpenAI a forgé le terme « lois de mise à l’échelle », qui est devenu depuis un point de référence dans l’industrie.
Cette thèse a incité les entreprises d’IA à investir des centaines de millions dans des clusters de calcul et des ensembles de données toujours plus volumineux. Ce pari s’est avéré extrêmement lucratif, transformant de simples machines à texte en chatbots aujourd’hui articulés.
Le doute s’installe sur cette approche
Cependant, cette doctrine du « plus c’est grand, mieux c’est » est désormais remise en question. La semaine dernière, des rapports de Reuters et Bloomberg ont suggéré que les principales entreprises d’IA connaissent des rendements décroissants sur la mise à l’échelle de leurs systèmes. Quelques jours plus tôt, The Information rapportait des doutes chez OpenAI concernant une avancée continue après que le modèle Orion, non publié, n’a pas répondu aux attentes lors des tests internes. Les co-fondateurs d’Andreessen Horowitz, une firme de capital-risque bien connue de la Silicon Valley, ont exprimé des sentiments similaires, notant que l’augmentation de la puissance de calcul ne produit plus les mêmes « améliorations d’intelligence ».
Les réactions des entreprises technologiques
Malgré tout, de nombreuses entreprises d’IA semblent confiantes que le progrès avance à plein régime. Un porte-parole d’Anthropic, développeur du chatbot populaire Claude, a déclaré : « nous n’avons pas vu de signes d’écarts par rapport aux lois de mise à l’échelle. » OpenAI a refusé de commenter, tout comme Google DeepMind. Cependant, le PDG de Google, Sundar Pichai, a déclaré sur X que « d’autres choses sont à venir » après qu’une nouvelle version expérimentale du modèle Gemini de Google a pris la première place d’un classement de performance d’IA.
Des mises à jour contrastées
Les sorties récentes dressent un tableau quelque peu mitigé. Anthropic a mis à jour son modèle de taille moyenne, Sonnet, à deux reprises depuis sa sortie en mars, le rendant plus capable que le modèle le plus grand de la société, Opus, qui n’a pas reçu de telles mises à jour. En juin, la société a annoncé qu’Opus serait mis à jour « plus tard cette année », mais la semaine dernière, lors d’un podcast, le co-fondateur et PDG Dario Amodei a refusé de donner un calendrier précis. Google a mis à jour son modèle Gemini Pro en février, mais le modèle plus grand Gemini Ultra n’a pas encore été mis à jour.
Les enjeux de la mise à l’échelle
Interpréter la vérité est compliqué par les intérêts concurrents des différentes parties. Si Anthropic ne peut pas produire des modèles plus puissants, « nous avons profondément échoué en tant qu’entreprise », a déclaré Amodei, offrant un aperçu des enjeux pour les entreprises d’IA qui ont misé leur avenir sur un progrès incessant. Un ralentissement pourrait effrayer les investisseurs et déclencher une crise économique. Pendant ce temps, Ilya Sutskever, ancien scientifique en chef d’OpenAI et fervent défenseur de la mise à l’échelle, déclare maintenant que les gains de performance des modèles plus grands ont atteint un plateau.
Avez-vous épuisé les données ?
Un ralentissement pourrait refléter les limites des techniques d’apprentissage profond actuelles ou simplement qu’il n’y a plus suffisamment de nouvelles données. Sasha Luccioni, responsable de l’IA et du climat chez Hugging Face, affirme qu’il existe des limites à la quantité d’informations pouvant être tirées des textes et des images. Le manque de données est particulièrement aigu dans certains domaines comme le raisonnement et les mathématiques, où il n’existe « tout simplement pas assez de données de haute qualité. » Cela ne signifie pas que la mise à l’échelle est susceptible de s’arrêter, mais que la mise à l’échelle seule pourrait être insuffisante.
Conséquences politiques et géopolitiques
Diagnostiquer prématurément un ralentissement pourrait avoir des répercussions au-delà de la Silicon Valley et de Wall Street. La vitesse perçue des avancées technologiques suite à la sortie de GPT-4 a entraîné une lettre ouverte appelant à une pause de six mois sur la formation de systèmes plus grands pour donner aux chercheurs et gouvernements le temps de rattraper leur retard. Cette lettre a recueilli plus de 30 000 signatures, y compris celles de Musk et du lauréat du prix Turing, Yoshua Bengio. Il est donc incertain si un ralentissement perçu pourrait avoir l’effet inverse, en déplaçant la sécurité de l’IA de l’ordre du jour.