Nouvelle technologie d'Anthropic pour comprendre l'IA dévoilée

<section>
<h2>Nouvelle Technologie d’Anthropic pour Comprendre l’IA Dévoilée</h2>
<p>Dans une avancée importante, les laboratoires de recherche de la société « Anthropic » ont annoncé une technologie innovante qui pourrait nous aider à comprendre le fonctionnement des modèles linguistiques avancés. La société développe le chatbot « Claude », un concurrent notable sur ce marché face à « [ChatGPT] » et « Gemini ». Cette nouvelle technologie permet aux chercheurs de cartographier et d’analyser les réseaux neuronaux complexes de ces systèmes, ce qui pourrait révolutionner notre compréhension et notre capacité à contrôler les modèles d’intelligence artificielle (IA).</p>
</section>

<section>
<h2>La Problématique de la Boîte Noire</h2>
<p>Les modèles d’IA modernes sont souvent décrits comme des « boîtes noires ». Les développeurs ne fournissent pas de règles de programmation explicites et claires pour que ces systèmes apprennent; ils nourrissent plutôt ces systèmes avec d’énormes quantités de données pour qu’ils identifient indépendamment des motifs et apprennent de manière autonome.</p>

<p>Les modèles de la « boîte noire » reposent sur des algorithmes utilisant de vastes quantités de données pour prédire le mot suivant dans un texte. On les appelle ainsi car personne ne sait vraiment comment ils fonctionnent, même leurs développeurs ne peuvent expliquer comment ces modèles font leurs prédictions. Cela peut poser problème dans des situations où de telles prédictions influencent des décisions de vie importantes, comme dans les soins de santé, les sélections pour des emplois, ou les décisions de crédit.</p>

<p>Des entreprises comme « OpenAI » choisissent de développer des « boîtes noires » pour protéger leurs informations et maintenir un avantage concurrentiel, surtout dans un marché dominé par des géants comme Microsoft et Google. Les experts mettent en garde contre ce manque de transparence, car accorder une confiance totale à une « boîte noire » signifie également faire confiance à l’ensemble de la base de données sur laquelle elle est formée. Ne pas connaître ces données représente un risque considérable, influençant les résultats produits par le modèle.</p>

<p>La complexité des réseaux neuronaux, contenant des milliards de neurones artificiels, augmente davantage cette opacité, engendrant des inquiétudes quant à la sécurité et la fiabilité de ces systèmes. Il est difficile de garantir la sécurité d’un système sans comprendre parfaitement son fonctionnement interne.</p>

![Recherche en intelligence artificielle et développement de robots et cyborgs pour l’avenir de la vie humaine. Données numériques…](https://aljazeera.net/wp-content/uploads/2023/01/shutterstock_1627244407.jpg?w=770&resize=770%2C514)

<p>Les chercheurs ont découvert à l’intérieur d’un modèle d’IA, du « code non sécurisé » pouvant présenter des failles exploitables (Shutterstock).</p>
</section>

<section>
<h2>Une Nouvelle Technologie</h2>
<p>Les dernières recherches d’Anthropic marquent un progrès significatif pour répondre à ces préoccupations. Les chercheurs ont développé une technique pour examiner le « cerveau » d’un modèle d’IA, leur permettant d’identifier des groupes spécifiques de neurones appelés « features » qui correspondent à des concepts précis dans le modèle. Ils ont appliqué cette technique avec succès sur un modèle linguistique avancé nommé « Claude Sennett », le deuxième plus puissant de la société.</p>

<p>Par exemple, ils ont identifié une feature dans le modèle « Claude » correspondant au « code de programmation non sécurisé ». En stimulant ces neurones spécifiques, « Claude » pouvait produire des codes comportant des failles exploitables; en revanche, en supprimant ces neurones, le robot produisait des codes sécurisés. Cette capacité à modifier le comportement du modèle en manipulant des features spécifiques pourrait avoir des effets significatifs sur la sécurité et la fiabilité des modèles d’IA.</p>

<p>Le groupe de recherche a également identifié des millions d’autres features dans « Claude », y compris celles liées aux biais, aux activités frauduleuses, aux discours de haine, et aux comportements trompeurs. Grâce à la suppression de ces features, ils ont pu réduire ces comportements indésirables, renforçant ainsi la sécurité et la fiabilité du modèle.</p>

<p>Cependant, bien qu’ils aient identifié des millions de features, cela ne représente qu’une petite fraction du nombre total potentiel. Déterminer toutes les features nécessiterait une puissance de calcul bien supérieure à celle utilisée pour entraîner « Claude », une tâche coûtant des dizaines voire des centaines de millions de dollars.</p>
</section>

<section>
<h2>L’Examen du Cerveau Artificiel</h2>
<p>Cette technique prometteuse pourrait également contrer des risques potentiels, comme la possibilité que les systèmes d’IA dissimulent leurs capacités. Traditionnellement, les chercheurs utilisent une méthode connue sous le nom de « team red, » où une équipe d’experts interagit avec le modèle d’IA pour identifier et corriger les comportements nuisibles ou dangereux. Toutefois, cette méthode est limitée pour détecter les comportements trompeurs de ces modèles.</p>

<p>La nouvelle technologie offre une approche plus directe, permettant aux chercheurs d’examiner le cerveau de l’IA, à l’instar de l’imagerie par résonance magnétique pour comprendre le fonctionnement du cerveau humain.</p>

<p>Le PDG d’Anthropic, Dario Amodei, a affirmé : « Nous commençons à progresser vers ce que nous pourrions appeler des rayons X ou une IRM pour le modèle d’IA, au lieu de simplement discuter avec lui, nous pouvons maintenant voir ce qu’il y a à l’intérieur. »</p>

<p>Toutefois, bien que ces développements soient encourageants, la recherche en est encore à ses débuts. Anthropic résume ses résultats avec optimisme, soulignant que la capacité à contrôler ces features pourrait considérablement renforcer la sécurité de l’IA, aidant à prévenir les tentatives de hacking qui contournent les mécanismes de sécurité de ces modèles intelligents.</p>

<p>L’équipe de recherche prévoit d’affiner davantage cette nouvelle technologie, visant à décoder plus de features et à améliorer la sécurité des modèles d’IA. Ce travail pourrait contribuer à combler le fossé entre la compréhension du comportement des modèles d’IA et la garantie de leur utilisation en toute sécurité.</p>

<p>Avec la prolifération des systèmes d’IA aujourd’hui, comprendre leurs mécanismes internes est d’une importance cruciale. La découverte d’Anthropic représente donc une étape prometteuse vers la démystification des « boîtes noires » des modèles d’IA, pouvant mener à des technologies plus sûres à l’avenir.</p>

Nouvelle technologie d’Anthropic pour comprendre l’IA dévoilée

LAISSER UN COMMENTAIRE Annuler la réponse

Topics

à Lire