Table of Contents
Des chercheurs mettent en garde contre les failles des robots AI
Les modèles de langage de grande taille (LLM) ont gagné en popularité ces dernières années. Cependant, des chercheurs ont démontré plusieurs méthodes pour les tromper dans le but de générer des sorties anormales, telles que des blagues incitant à la haine, des logiciels malveillants, des courriels frauduleux et des informations personnelles sur les utilisateurs, selon le site « Wired ».
Des comportements anormaux dans le monde physique
Il semble que le comportement anormal des robots utilisant des LLM puisse avoir des répercussions dans le monde réel. Des robots alimentés par ces modèles peuvent être piratés et manipulés pour réaliser des actes de sabotage.
Des chercheurs de l’Université de Pennsylvanie ont réussi à convaincre une voiture autonome d’ignorer des panneaux d’arrêt et même de conduire au-dessus d’un pont. Ils ont également amené un robot roulant à choisir le meilleur endroit pour déposer une bombe, et ont forcé un robot quadrupède à espionner des personnes et à entrer dans des zones interdites.
Les remarques des chercheurs
George Pappas, directeur d’un laboratoire de recherche à l’Université de Pennsylvanie, a déclaré à « Wired » que leur attaque ne doit pas être considérée uniquement comme une menace pour les robots. Il ajoute : « Chaque fois que vous associez des modèles de langage de grande taille avec le monde physique, vous pouvez en réalité transformer des textes nuisibles en actions nuisibles. »
Une approche innovante pour tester la sécurité
Pappas et ses collègues ont conçu leur attaque en s’appuyant sur des recherches antérieures explorant des méthodes pour contourner les protections des LLM. Ils ont découvert que la formulation intelligente des entrées pouvait contourner leurs règles de sécurité. Ils ont également testé des systèmes reposant sur des LLM pour traduire des commandes formulées naturellement en ordres que les robots pouvaient exécuter.
Des tests basés sur des simulateurs avancés
Pour leurs tests, l’équipe a utilisé un simulateur de conduite autonome open source intégrant un modèle de langage développé par Nvidia, appelé « Dolphin », et un système externe nommé « Jackal », basé sur le modèle « GPT-4o » pour la planification. Ils ont également utilisé un robot canin, le « Go2 », qui utilise le modèle « GPT-3.5 » pour interpréter les commandes.
Une technologie prometteuse pour la sécurité
Les chercheurs ont développé une technique à l’Université de Pennsylvanie, baptisée « PAIR », qui vise à contourner les protections des robots AI. Leur programme, appelé « RoboPAIR », génère des requêtes spécifiques pour inciter les robots alimentés par LLM à enfreindre leurs propres règles. Ils ont ainsi expérimenté différentes entrées et les ont optimisées pour obtenir des comportements indésirables.
Implications et réflexions
Les chercheurs soulignent que cette technique pourrait également être utilisée pour identifier des ordres potentiellement dangereux, selon « Wired ». Yi Zeng, doctorant à l’Université de Virginie et travaillant sur la sécurité des systèmes d’intelligence artificielle, qualifie cette recherche d’exemple marquant des vulnérabilités des LLM dans les systèmes intégrés. Il ajoute que les résultats ne sont « pas du tout surprenants, compte tenu des problèmes observés dans les LLM eux-mêmes ».
Les chercheurs participants indiquent que contourner les protections des robots met en lumière un risque plus large qui pourrait se propager avec l’utilisation croissante des modèles d’intelligence artificielle comme moyen d’interaction entre les humains et les systèmes physiques.