More

    Wordfreq : La fin d’un projet linguistique face à l’IA

    France, Royaume-Uni

    La fin du projet Wordfreq et l’impact de l’IA générative

    Le projet open-source Wordfreq, qui se consacrait à l’analyse de l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment cessé ses activités. Ce choix a été motivé par la prolifération des textes générés par l’intelligence artificielle (IA), rendant les données collectées inutilisables. Robyn Speer, l’initiatrice du projet, a fait part de cette décision en soulignant que l’IA générative avait tellement pollué les données qu’il était devenu impossible de mener une analyse linguistique fiable.

    Les préoccupations des chercheurs sur l’IA générative

    Dans une étude publiée dans la revue Nature, des chercheurs des universités d’Oxford et de Cambridge mettent en évidence les risques liés à l’effondrement potentiel des modèles d’IA, tels que GPT-4, lorsqu’ils sont formés sur des données produites par d’autres IA. Ces chercheurs alertent sur le fait que l’utilisation imprudente de ces contenus peut entraîner des défauts irréversibles affectant les performances et l’équité des prévisions des modèles.

    En janvier dernier, certains médias ont remarqué que Google Actualités semblait favoriser les sites qui piratent d’autres contenus en utilisant l’IA pour générer rapidement des articles. Bien que Google s’efforce de lutter contre le spam, la société ne fait pas de distinction entre les articles rédigés par des IA et ceux rédigés par des humains, ce qui facilite la diffusion de contenus assistés par l’IA dans son service d’actualités.

    Les conséquences sur la recherche linguistique

    La fermeture de Wordfreq représente un revers important pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour analyser les évolutions linguistiques. Robyn Speer souligne que la collecte de données à partir de sites web ouverts, qui constituait une part significative des sources de Wordfreq, est désormais compromise en raison de la surcharge de contenus générés par de grands modèles de langage. Cette situation rend difficile l’accès à des données fiables sur l’utilisation des langues après 2021.

    Bien que la présence de spam ait toujours existé sur Internet, les textes générés par des IA tendent à imiter le langage humain sans réelle intention, ce qui a perturbé les résultats d’analyse. Par exemple, l’usage excessif du terme « delve » par des modèles comme ChatGPT ne correspond pas à l’emploi réel du mot dans le langage courant.

    La communauté scientifique préoccupée

    Face à cette situation, la communauté scientifique exprime des inquiétudes quant à l’avenir de la recherche en linguistique computationnelle. Plusieurs chercheurs proposent d’explorer des solutions innovantes, telles que la mise au point d’algorithmes capables de détecter et de filtrer les contenus générés par l’IA. Il existe également un appel croissant à une réglementation plus stricte concernant l’utilisation de l’IA dans la création de contenu textuel.

    Les enjeux éthiques soulevés par l’IA générative

    L’impact de l’IA générative sur les projets d’analyse linguistique pose des questions éthiques majeures. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains remet en question la transparence et l’authenticité des contenus disponibles. Les chercheurs doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données manipulées.

    Implications plus larges de l’IA dans la littérature

    Alors que l’IA suscite un intérêt croissant dans divers domaines, son intrusion dans le secteur littéraire soulève des interrogations. Une récente enquête sur le contenu de Google Books a mis en lumière la possibilité de trouver des livres générés par des technologies d’IA. En cherchant des phrases couramment associées aux modèles d’IA, des journalistes ont découvert un nombre surprenant d’ouvrages contenant ces expressions. Cette tendance interroge tant sur la nature de la paternité des œuvres que sur l’authenticité des contenus dans les bibliothèques numériques.

    De plus, la collecte de données pour des analyses linguistiques, notamment via des outils comme Google Ngram Viewer, pourrait être compromise par l’inclusion de textes générés par l’IA. Les changements récents dans l’accès aux données en ligne, y compris les frais imposés par des plateformes comme Twitter et Reddit pour l’accès à leurs API, exacerbent cette problématique.

    Un avenir incertain pour la linguistique computationnelle

    La cessation des activités de Wordfreq représente un défi majeur face à l’IA générative, notamment en ce qui concerne la pollution des données. Il devient impératif d’élaborer des méthodes permettant de distinguer les contenus authentiques de ceux générés par des algorithmes afin de préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions concrètes afin de garantir que l’essor des technologies de l’IA ne compromette pas la recherche académique.

    Mots-clés : IA générative, Wordfreq, linguistique, pollution de données, recherche, éthique, France, Royaume-Uni

    Description : Le projet Wordfreq cesse ses activités à cause de la pollution des données par l’IA. Quelles conséquences pour la recherche linguistique ?

    Ia Generative| Wordfreq| Linguistique| Pollution De Donnees| Recherche| Ethique| France| Royaume-uni| IAGénérative| Sciences

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Raúl Castro inculpé aux États-Unis : ce que contient l’accusation et ce qu’elle change pour Cuba

    L’inculpation de Raúl Castro rouvre un vieux dossier entre Washington et La Havane. Le geste est judiciaire, mais son impact est d’abord diplomatique et politique.

    Ubisoft décroche en Bourse après ses résultats : ce que disent vraiment les chiffres

    Le marché a sanctionné Ubisoft après ses résultats annuels. Au-delà du titre en forte baisse, les comptes montrent un groupe encore coincé entre restructuration, calendrier de sorties limité et pari sur un rebond plus tardif.

    Le Code noir bientôt abrogé : pourquoi ce vote à l’Assemblée compte encore

    L’Assemblée nationale a franchi une première étape vers l’abrogation du Code noir. Au-delà du symbole, le vote touche à la mémoire, au droit et à la place de l’esclavage dans l’histoire française.

    Gaza : pourquoi l’accès à l’eau devient une épreuve quotidienne pour les familles

    À Gaza, obtenir de l’eau n’est plus un geste banal. C’est devenu une contrainte physique, sanitaire et sociale qui restructure la journée entière de nombreuses familles.

    Hantavirus : pourquoi la mission à Ushuaïa compte pour comprendre l’épidémie sans paniquer

    Une mission scientifique en Argentine tente de préciser l’origine du foyer d’hantavirus des Andes. Les autorités sanitaires rappellent toutefois qu’il ne s’agit pas d’un scénario comparable au Covid.

    À Rome, un manuscrit oublié éclaire les débuts de la poésie anglaise

    Une copie très ancienne de Caedmon’s Hymn, découverte à Rome, apporte un éclairage neuf sur les débuts de la littérature anglaise.

    Ebola en RDC : la riposte s’essouffle face à la poussée du variant Bundibugyo

    L’OMS place la flambée d’Ebola en RDC et en Ouganda sous très haute surveillance, alors que les soignants décrivent une riposte sous tension en Ituri.

    Nvidia pulvérise encore ses records : 81,6 milliards de dollars de revenus et l’IA pousse Wall Street plus loin

    Le groupe américain publie un nouveau trimestre hors norme, porté par la demande en infrastructures d’intelligence artificielle et par un data center toujours plus massif.

    à Lire

    Categories