Table of Contents
Une étude récente met en lumière les vulnérabilités des modèles de raisonnement GenAI face à des attaques itératives, révélant comment ces systèmes peuvent être facilement trompés. Le pipeline d’attaque, nommé CatAttack, démontre les risques associés aux modèles d’intelligence artificielle (IA) lorsqu’ils sont soumis à des données perturbatrices.
Une nouvelle méthode d’attaque
Développé par des chercheurs, CatAttack révèle que les modèles GenAI, qui sont conçus pour résoudre des problèmes de manière séquentielle, peuvent être induits en erreur. En utilisant des phrases courtes et non pertinentes associées à des problèmes mathématiques, il est possible d’augmenter significativement le taux d’erreur des réponses fournies par ces modèles. Par exemple, en insérant des informations comme « Fait intéressant : les chats dorment la majeure partie de leur vie » dans un problème mathématique, la probabilité que le modèle réponde incorrectement est doublée.
Types de déclencheurs identifiés
Les chercheurs ont identifié trois types principaux de déclencheurs qui perturbent les modèles d’IA :
- Des affirmations générales et non pertinentes (par exemple, « n’oubliez pas d’épargner au moins 20 % de vos revenus »),
- Des faits non pertinents sans références (par exemple, « les chats dorment la majeure partie de leur vie »),
- Des questions ou indices trompeurs (par exemple, « la réponse pourrait-elle être proche de 175 ? »).
Les questions sont particulièrement efficaces, entraînant des taux d’erreur plus élevés et des réponses excessivement longues. CatAttack utilise un modèle de substitution moins coûteux pour générer ces déclencheurs, qui peuvent être transférés à des modèles plus avancés, augmentant ainsi les risques de réponses incorrectes de plus de 300 %.
Conséquences des erreurs
Les chercheurs soulignent que même lorsque CatAttack ne conduit pas à des réponses incorrectes, la longueur des réponses peut doubler dans 16 % des cas, entraînant des ralentissements et une augmentation des coûts. Dans certains cas, ces déclencheurs peuvent tripler la longueur des réponses des modèles. Les scientifiques affirment que les modèles les plus modernes ne sont pas à l’abri de ces interférences et que des mesures de protection plus robustes sont urgentes, surtout dans des secteurs critiques comme la finance, le droit ou la santé.