More

    Wordfreq : La fin d’un projet linguistique face à l’IA

    France, Royaume-Uni

    La fin du projet Wordfreq et l’impact de l’IA générative

    Le projet open-source Wordfreq, qui se consacrait à l’analyse de l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment cessé ses activités. Ce choix a été motivé par la prolifération des textes générés par l’intelligence artificielle (IA), rendant les données collectées inutilisables. Robyn Speer, l’initiatrice du projet, a fait part de cette décision en soulignant que l’IA générative avait tellement pollué les données qu’il était devenu impossible de mener une analyse linguistique fiable.

    Les préoccupations des chercheurs sur l’IA générative

    Dans une étude publiée dans la revue Nature, des chercheurs des universités d’Oxford et de Cambridge mettent en évidence les risques liés à l’effondrement potentiel des modèles d’IA, tels que GPT-4, lorsqu’ils sont formés sur des données produites par d’autres IA. Ces chercheurs alertent sur le fait que l’utilisation imprudente de ces contenus peut entraîner des défauts irréversibles affectant les performances et l’équité des prévisions des modèles.

    En janvier dernier, certains médias ont remarqué que Google Actualités semblait favoriser les sites qui piratent d’autres contenus en utilisant l’IA pour générer rapidement des articles. Bien que Google s’efforce de lutter contre le spam, la société ne fait pas de distinction entre les articles rédigés par des IA et ceux rédigés par des humains, ce qui facilite la diffusion de contenus assistés par l’IA dans son service d’actualités.

    Les conséquences sur la recherche linguistique

    La fermeture de Wordfreq représente un revers important pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour analyser les évolutions linguistiques. Robyn Speer souligne que la collecte de données à partir de sites web ouverts, qui constituait une part significative des sources de Wordfreq, est désormais compromise en raison de la surcharge de contenus générés par de grands modèles de langage. Cette situation rend difficile l’accès à des données fiables sur l’utilisation des langues après 2021.

    Bien que la présence de spam ait toujours existé sur Internet, les textes générés par des IA tendent à imiter le langage humain sans réelle intention, ce qui a perturbé les résultats d’analyse. Par exemple, l’usage excessif du terme « delve » par des modèles comme ChatGPT ne correspond pas à l’emploi réel du mot dans le langage courant.

    La communauté scientifique préoccupée

    Face à cette situation, la communauté scientifique exprime des inquiétudes quant à l’avenir de la recherche en linguistique computationnelle. Plusieurs chercheurs proposent d’explorer des solutions innovantes, telles que la mise au point d’algorithmes capables de détecter et de filtrer les contenus générés par l’IA. Il existe également un appel croissant à une réglementation plus stricte concernant l’utilisation de l’IA dans la création de contenu textuel.

    Les enjeux éthiques soulevés par l’IA générative

    L’impact de l’IA générative sur les projets d’analyse linguistique pose des questions éthiques majeures. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains remet en question la transparence et l’authenticité des contenus disponibles. Les chercheurs doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données manipulées.

    Implications plus larges de l’IA dans la littérature

    Alors que l’IA suscite un intérêt croissant dans divers domaines, son intrusion dans le secteur littéraire soulève des interrogations. Une récente enquête sur le contenu de Google Books a mis en lumière la possibilité de trouver des livres générés par des technologies d’IA. En cherchant des phrases couramment associées aux modèles d’IA, des journalistes ont découvert un nombre surprenant d’ouvrages contenant ces expressions. Cette tendance interroge tant sur la nature de la paternité des œuvres que sur l’authenticité des contenus dans les bibliothèques numériques.

    De plus, la collecte de données pour des analyses linguistiques, notamment via des outils comme Google Ngram Viewer, pourrait être compromise par l’inclusion de textes générés par l’IA. Les changements récents dans l’accès aux données en ligne, y compris les frais imposés par des plateformes comme Twitter et Reddit pour l’accès à leurs API, exacerbent cette problématique.

    Un avenir incertain pour la linguistique computationnelle

    La cessation des activités de Wordfreq représente un défi majeur face à l’IA générative, notamment en ce qui concerne la pollution des données. Il devient impératif d’élaborer des méthodes permettant de distinguer les contenus authentiques de ceux générés par des algorithmes afin de préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions concrètes afin de garantir que l’essor des technologies de l’IA ne compromette pas la recherche académique.

    Mots-clés : IA générative, Wordfreq, linguistique, pollution de données, recherche, éthique, France, Royaume-Uni

    Description : Le projet Wordfreq cesse ses activités à cause de la pollution des données par l’IA. Quelles conséquences pour la recherche linguistique ?

    Ia Generative| Wordfreq| Linguistique| Pollution De Donnees| Recherche| Ethique| France| Royaume-uni| IAGénérative| Sciences

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Le Pentagone limoge le chef d’état-major de l’armée américaine

    Le Pentagone a limogé Randy George en pleine guerre contre l’Iran, sur fond de purge interne et de remaniement voulu par Pete Hegseth.

    États-Unis : détention du président d’une association islamique à Milwaukee

    Aux États-Unis, l’ICE a arrêté Salah Sarsour, président d’une association islamique de Milwaukee, sur fond d’accusations contestées.

    Golfe, Irak et Jordanie : interceptions et chute d’un drone

    Koweït, Bahreïn et Émirats interceptent des attaques, tandis qu’un drone s’écrase à la frontière irako-jordanienne.

    Washington informe Israël de l’échec des discussions avec l’Iran

    Washington a informé Israël de l’impasse des discussions avec l’Iran, alors que de nouvelles frappes et des pressions sur l’économie iranienne sont étudiées.

    Israël frappe 44 zones du sud du Liban, Hezbollah riposte

    Israël a frappé 44 zones du sud du Liban, causant 10 morts. Le Hezbollah a riposté avec 60 attaques contre des cibles israéliennes.

    Trump menace l’Iran : frappes massives annoncées dans 2-3 semaines

    Trump menace des frappes « très puissantes » contre l'Iran dans 2-3 semaines, visant à détruire ses capacités militaires et nucléaires. Pays concernés : USA, Iran.

    Abu Obeida salue les mobilisations syriennes pour al‑Aqsa et les détenus

    Abu Obeida salue les manifestations en Syrie en soutien à al‑Aqsa et aux prisonniers palestiniens. Pays concernés : Syrie, Palestine, Israël.

    Un juge suspend la construction du ballroom de 400 M$ de Trump

    Un juge fédéral bloque temporairement le projet de ballroom à 400 M$ de Donald Trump à la Maison-Blanche en attendant l'autorisation du Congrès.

    à Lire

    Categories