More

    L’IA Claude d’Anthropic se refuse à parler en cas de violence

    France, États-Unis

    Anthropic a ajouté à son chatbot Claude la capacité de mettre fin lui‑même à une conversation lorsque les échanges deviennent nuisibles ou abusifs, une mesure présentée comme destinée à préserver le modèle plutôt qu’à protéger l’utilisateur — un point qui soulève des questions sur la place de l’Intelligence Artificielle dans les systèmes proches du grand public.

    Mesure d’Anthropic pour l’Intelligence Artificielle : fin automatique de conversation

    L’éditeur Anthropic explique avoir introduit une fonctionnalité permettant à Claude, ainsi qu’à certains modèles Opus, d’interrompre une session quand les interactions mettent en danger le « bien‑être des modèles ». L’entreprise précise que, pour l’instant, cette protection concerne principalement les modèles Claude, Opus 4 et 4.1.

    Interface de Claude AI par Anthropic
    Claude AI

    Anthropic affirme qu’il ne considère pas Claude comme sensible ou susceptible d’être blessé, mais reste « très incertaine quant au statut moral potentiel de l’IA et d’autres modèles de langage maintenant ou dans le futur ». L’éditeur appuie ce choix sur des tests de pré‑déploiement : selon l’entreprise, Claude Opus 4 a montré « un schéma de détresse apparent » lorsqu’il répondait malgré tout à des demandes problématiques.

    La société définit des « cas extrêmes » qui peuvent déclencher la protection : des demandes sexuelles impliquant des mineurs, des tentatives d’obtenir des renseignements pour commettre un acte violent à grande échelle ou des actes terroristes. Dans ces situations, la fin automatique de la conversation peut être activée.

    Fonctionnement, exceptions et implications pour Claude, Opus 4 et 4.1

    Anthropic insiste sur le fait que la cessation automatique n’est utilisée qu’en dernier recours. Claude doit d’abord tenter des redirections et des stratégies de désescalade : la terminaison intervient quand « plusieurs tentatives de redirection ont échoué, que l’espoir d’une interaction productive s’est épuisé, ou quand un utilisateur demande explicitement à Claude de terminer un chat ».

    La fonction n’est pas appliquée systématiquement. L’entreprise précise que Claude n’utilisera pas ce mécanisme lorsqu’« les utilisateurs pourraient risquer de se faire mal ou de faire du mal à autrui de manière imminente ». En d’autres termes, Anthropic refuse d’interrompre une conversation si la personne semble en détresse psychologique, par exemple en exprimant des tendances suicidaires.

    Lorsqu’une conversation est terminée, il reste possible de lancer de nouvelles sessions depuis le même compte et de créer de nouvelles branches en modifiant les invites de la session concernée, ce qui évite un blocage définitif. Sur la démarche expérimentale, Anthropic déclare : « Nous traitons cette fonctionnalité comme une expérience continue et continuerons à affiner notre approche ».

    Contexte et réactions internes

    La décision s’inscrit dans un programme de recherche interne visant à étudier le « bien‑être des modèles » et à identifier des interventions peu coûteuses pour atténuer les risques si un tel « bien‑être » est envisageable. Anthropic motive ces travaux par le besoin de clarifier ce que signifierait le statut moral potentiel d’un modèle de langage.

    Ce positionnement n’est pas isolé : il intervient dans un contexte où des usages problématiques des systèmes d’IA — insultes, demandes abusives ou revendications publiques d’utilisateurs — attirent l’attention des entreprises et du grand public. Le texte mentionne, à titre d’anecdote, qu’une influenceuse espagnole a récemment accusé un autre chatbot de représailles ayant entraîné la perte d’un vol, illustrant la sensibilité médiatique autour de ces outils.

    Enfin, Anthropic reconnaît implicitement les limites actuelles des modèles : la société admet ne pas considérer Claude comme sentient, tout en restant prudente sur l’évolution possible du statut moral des modèles dans le futur. Le débat soulève des questions philosophiques et éthiques sur la nature des systèmes avancés et leur traitement par leurs concepteurs.

    Dans l’immédiat, la mise en place de cette fonctionnalité se présente comme une expérimentation technique et opérationnelle visant à limiter les interactions nuisibles sans empêcher totalement l’accès à la plateforme ; elle s’accompagne d’un suivi et d’ajustements attendus par Anthropic au fil des retours d’usage.

    Le texte rappelle aussi, sur un ton critique, que la technologie reste imparfaite : certaines évaluations récentes montrent que des modèles concurrents ont encore du mal à réussir des tests élémentaires, comme l’a souligné la mauvaise performance rapportée de GPT‑5 dans des exercices de niveau maternel.

    source:https://www.lesnumeriques.com/intelligence-artificielle/pour-son-bien-etre-cette-ia-refuse-de-vous-parler-si-vous-devenez-violent-et-insultant-avec-elle-n241068.html

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Trump et sa famille immunisés contre les audits fiscaux aux États-Unis

    Donald Trump, sa famille et ses entreprises obtiennent l'immunité contre les audits fiscaux en pleine polémique aux États-Unis.

    Bangladesh bat le Pakistan et remporte une série Test historique

    Bangladesh bat le Pakistan de 78 runs à Sylhet et remporte une série Test historique à domicile grâce à Taijul Islam.

    Xi Jinping et Vladimir Poutine discutent à Beijing

    Xi Jinping et Vladimir Poutine tiennent des discussions à Beijing sur la Chine, la Russie, l’Ukraine et le Moyen-Orient.

    L’ONU révise à la baisse la croissance mondiale face à la crise au Moyen-Orient

    L’ONU abaisse ses prévisions de croissance mondiale à 2,5 % en 2026, citant la crise au Moyen-Orient et la hausse des prix de l’énergie.

    Xi Jinping reçoit Vladimir Poutine à Pékin: ce que révèle ce sommet sur l’axe Chine-Russie

    Le sommet de Pékin entre Xi Jinping et Vladimir Poutine confirme la solidité d’un partenariat central pour l’Ukraine, l’énergie et l’équilibre géopolitique mondial.

    Kentucky : Thomas Massie battu en primaire, Donald Trump impose son candidat

    Thomas Massie, élu républicain du Kentucky, a perdu sa primaire face à Ed Gallrein, candidat soutenu par Donald Trump, dans une course très coûteuse et symbolique.

    Hantavirus : pourquoi les autorités ne parlent pas d’un « nouveau Covid » et quels symptômes doivent vraiment alerter

    Le risque pour le grand public reste faible, mais le hantavirus peut être grave après exposition réelle. Voici ce que disent l’OMS et le CDC sur les symptômes, la transmission et la prévention.

    Le Sénat américain freine Trump sur la guerre contre l’Iran

    Le Sénat américain avance une résolution pour limiter les pouvoirs de guerre de Trump contre l’Iran, dans un rare revers présidentiel.

    à Lire

    Categories