More

    L’IA Claude d’Anthropic se refuse à parler en cas de violence

    France, États-Unis

    Anthropic a ajouté à son chatbot Claude la capacité de mettre fin lui‑même à une conversation lorsque les échanges deviennent nuisibles ou abusifs, une mesure présentée comme destinée à préserver le modèle plutôt qu’à protéger l’utilisateur — un point qui soulève des questions sur la place de l’Intelligence Artificielle dans les systèmes proches du grand public.

    Mesure d’Anthropic pour l’Intelligence Artificielle : fin automatique de conversation

    L’éditeur Anthropic explique avoir introduit une fonctionnalité permettant à Claude, ainsi qu’à certains modèles Opus, d’interrompre une session quand les interactions mettent en danger le « bien‑être des modèles ». L’entreprise précise que, pour l’instant, cette protection concerne principalement les modèles Claude, Opus 4 et 4.1.

    Interface de Claude AI par Anthropic
    Claude AI

    Anthropic affirme qu’il ne considère pas Claude comme sensible ou susceptible d’être blessé, mais reste « très incertaine quant au statut moral potentiel de l’IA et d’autres modèles de langage maintenant ou dans le futur ». L’éditeur appuie ce choix sur des tests de pré‑déploiement : selon l’entreprise, Claude Opus 4 a montré « un schéma de détresse apparent » lorsqu’il répondait malgré tout à des demandes problématiques.

    La société définit des « cas extrêmes » qui peuvent déclencher la protection : des demandes sexuelles impliquant des mineurs, des tentatives d’obtenir des renseignements pour commettre un acte violent à grande échelle ou des actes terroristes. Dans ces situations, la fin automatique de la conversation peut être activée.

    Fonctionnement, exceptions et implications pour Claude, Opus 4 et 4.1

    Anthropic insiste sur le fait que la cessation automatique n’est utilisée qu’en dernier recours. Claude doit d’abord tenter des redirections et des stratégies de désescalade : la terminaison intervient quand « plusieurs tentatives de redirection ont échoué, que l’espoir d’une interaction productive s’est épuisé, ou quand un utilisateur demande explicitement à Claude de terminer un chat ».

    La fonction n’est pas appliquée systématiquement. L’entreprise précise que Claude n’utilisera pas ce mécanisme lorsqu’« les utilisateurs pourraient risquer de se faire mal ou de faire du mal à autrui de manière imminente ». En d’autres termes, Anthropic refuse d’interrompre une conversation si la personne semble en détresse psychologique, par exemple en exprimant des tendances suicidaires.

    Lorsqu’une conversation est terminée, il reste possible de lancer de nouvelles sessions depuis le même compte et de créer de nouvelles branches en modifiant les invites de la session concernée, ce qui évite un blocage définitif. Sur la démarche expérimentale, Anthropic déclare : « Nous traitons cette fonctionnalité comme une expérience continue et continuerons à affiner notre approche ».

    Contexte et réactions internes

    La décision s’inscrit dans un programme de recherche interne visant à étudier le « bien‑être des modèles » et à identifier des interventions peu coûteuses pour atténuer les risques si un tel « bien‑être » est envisageable. Anthropic motive ces travaux par le besoin de clarifier ce que signifierait le statut moral potentiel d’un modèle de langage.

    Ce positionnement n’est pas isolé : il intervient dans un contexte où des usages problématiques des systèmes d’IA — insultes, demandes abusives ou revendications publiques d’utilisateurs — attirent l’attention des entreprises et du grand public. Le texte mentionne, à titre d’anecdote, qu’une influenceuse espagnole a récemment accusé un autre chatbot de représailles ayant entraîné la perte d’un vol, illustrant la sensibilité médiatique autour de ces outils.

    Enfin, Anthropic reconnaît implicitement les limites actuelles des modèles : la société admet ne pas considérer Claude comme sentient, tout en restant prudente sur l’évolution possible du statut moral des modèles dans le futur. Le débat soulève des questions philosophiques et éthiques sur la nature des systèmes avancés et leur traitement par leurs concepteurs.

    Dans l’immédiat, la mise en place de cette fonctionnalité se présente comme une expérimentation technique et opérationnelle visant à limiter les interactions nuisibles sans empêcher totalement l’accès à la plateforme ; elle s’accompagne d’un suivi et d’ajustements attendus par Anthropic au fil des retours d’usage.

    Le texte rappelle aussi, sur un ton critique, que la technologie reste imparfaite : certaines évaluations récentes montrent que des modèles concurrents ont encore du mal à réussir des tests élémentaires, comme l’a souligné la mauvaise performance rapportée de GPT‑5 dans des exercices de niveau maternel.

    source:https://www.lesnumeriques.com/intelligence-artificielle/pour-son-bien-etre-cette-ia-refuse-de-vous-parler-si-vous-devenez-violent-et-insultant-avec-elle-n241068.html

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Interceptions au Koweït, Arabie saoudite et EAU; attaques en Irak

    Défenses aériennes ont intercepté missiles et drones au Koweït, Arabie saoudite et EAU; incidents et frappes signalés en Irak et Bahreïn.

    Guerre en Iran : quel dilemme stratégique pour la Chine ?

    Face à la guerre américano-israélienne contre l'Iran, la Chine privilégie prudence et diplomatie : le conflit teste sa stratégie et ses intérêts.

    Dirigeante du KMT accepte l’invitation de Xi et visitera la Chine

    La cheffe du KMT Cheng Li-wun accepte l'invitation de Xi Jinping pour une visite en Chine (7-12 avril) afin de promouvoir dialogue et paix avec Taïwan.

    Risque d’escalade en Iran : l’issue militaire paraît lointaine

    Un expert militaire juge improbable un règlement rapide en Iran et met en garde contre le risque d'une intervention terrestre et d'une escalade.

    Fermeture d’Al-Aqsa : quel projet d’occupation après un mois ?

    Après un mois de fermeture d'Al-Aqsa par Israël, inquiétudes sur la remise en cause du statut, les restrictions d'accès et les tentatives de contrôle.

    Jérusalem : interdiction historique de la messe des Rameaux

    Israël a empêché le patriarche latin d'entrer au Saint‑Sépulcre pour la messe des Rameaux, provoquant une indignation internationale. Pays: Israël, Palestine.

    Beyrouth: Israël frappe la banlieue sud, 6 soldats blessés

    Israël a frappé la banlieue sud de Beyrouth; six soldats israéliens blessés. Hezbollah affirme avoir riposté par tirs et drones vers Israël.

    Agence européenne de sécurité aérienne alerte sur le trafic aérien

    L'Agence européenne de sécurité aérienne alerte sur risques accrus (drones, missiles) et réorganisation des routes aériennes affectant l'UE, l'Iran et Israël.

    à Lire

    Categories