More

    Le défi des données face aux géants de l’IA

    Le défi des données face aux géants de l’IA

    À la fin de 2021, alors que la société Open AI formait ses modèles d’intelligence artificielle, elle a été confrontée à une crise d’approvisionnement. Elle avait épuisé tout le stock de textes anglais fiables en ligne lors du développement de ses derniers systèmes d’IA et avait besoin de plus de bonnes données pour entraîner la prochaine version de son système. Elle avait donc besoin de beaucoup plus de ces données.

    Les chercheurs d’Open AI ont donc créé un outil de transcription vocale appelé « Whisper » capable de copier les voix à partir de vidéos YouTube, produisant ainsi de nouveaux scripts de conversation qui pourraient rendre le système d’IA plus intelligent. Selon le New York Times, certains employés de l’entreprise ont discuté de la manière dont cette étape était en contradiction avec les règles de YouTube, le site appartenant à Google interdisant l’utilisation de ses clips dans des applications distinctes de la plateforme.

    En fin de compte, l’équipe d’Open AI a extrait plus d’un million d’heures de vidéos YouTube, utilisant ces données pour former le modèle « GP-4 », le plus puissant modèle d’IA de l’entreprise.

    Poursuites désespérées

    La course à la tête du secteur de l’IA générative s’est transformée en des efforts désespérés pour obtenir la plus grande quantité de données numériques nécessaires au développement de ces technologies. Pour saisir cette énorme quantité de données, des sociétés technologiques telles qu’Open AI, Google et Meta ont employé tous les moyens, ignorant les politiques des entreprises et cherchant à contourner la loi, selon le New York Times.

    Par exemple, chez Meta, propriétaire de Facebook et Instagram, des responsables ont discuté de la collecte de données protégées par des droits d’auteur sur Internet, même si cela signifiait des poursuites judiciaires et ont ajouté que les négociations pour obtenir des licences d’utilisation du contenu avec les éditeurs, les artistes, les musiciens et l’industrie des nouvelles prendraient beaucoup de temps.

    À l’instar de ce qu’a fait Open AI, Google a profité du contenu des vidéos sur YouTube pour extraire des scripts pour former ses modèles d’IA, une action qui pourrait violer les droits d’auteur des créateurs de ce contenu.

    Le sang de l’IA

    Les pratiques de ces entreprises montrent comment les données en ligne, allant des actualités aux œuvres de fiction en passant par les publications sur les réseaux sociaux, les articles Wikipedia, les images, les vidéos, les podcasts, les films, et plus encore, sont devenues le sang vital de l’industrie émergente de l’intelligence artificielle. Le développement de systèmes puissants et compétitifs repose sur la disponibilité de suffisamment de données pour apprendre à ces modèles à produire des textes, des images, des sons et des vidéos semblables à ceux produits par les humains instantanément.

    Il convient de noter que le volume de données est crucial. Les principaux robots de conversation, tels que GPT, ont appris à partir de vastes ensembles de textes numériques atteignant 3 trillions de mots, soit environ le double du nombre de mots stockés à la Bodleian Library, principale bibliothèque de recherche de l’Université d’Oxford, rassemblant des manuscrits depuis 1602. Les chercheurs en intelligence artificielle notent que les données les plus précieuses sont les informations de haute qualité, telles que les livres et les articles publiés écrits et édités avec soin par des experts dans leurs domaines.

    Données artificielles

    Les entreprises technologiques sont devenues si avides de nouvelles données que certaines ont commencé à développer des « données artificielles ». Il ne s’agit pas de données naturelles produites par les humains, mais de textes, d’images et de codes générés par des modèles d’IA, c’est-à-dire que les systèmes apprennent d’eux-mêmes ce qu’ils produisent.

    Par exemple, Open AI a mentionné que chaque modèle de leur IA possède un ensemble de données unique que l’entreprise organise et collecte dans le but d’aider le modèle à comprendre le monde pour préserver sa compétitivité dans le domaine.

    Sam Altman a précédemment mentionné que les entreprises développant des modèles devront finalement entraîner ces modèles sur les textes générés par l’IA, ou ce qu’on appelle les données artificielles. La théorie avancée par M. Altman et d’autres dans ce domaine est que, puisque le modèle d’IA est capable de produire des textes similaires à ceux des humains, les systèmes peuvent générer des données supplémentaires pour améliorer les versions ultérieures d’eux-mêmes. Cela aiderait les développeurs à créer des technologies plus puissantes et à réduire leur dépendance sur les données protégées par des droits d’auteur.

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Scandale Ben-Gvir : le ministre de l’entité sioniste humilie les militants de la Flottille pour Gaza, menottés et agenouillés

    Le ministre d’extrême droite Itamar Ben-Gvir a diffusé une vidéo montrant des militants de la Flottille pour Gaza menottés et agenouillés, déclenchant l’indignation internationale. Retour sur le parcours d’un extrémiste condamné devenu ministre d’un État colonial.

    YouTube Shorts se met au remix par IA : Google veut banaliser la vidéo générative

    Avec Gemini Omni, Google transforme YouTube Shorts en laboratoire grand public de la vidéo générative et du remix assisté par IA.

    Ebola en RDC : l’OMS alerte sur une riposte sous pression, sans vaccin immédiat

    L’OMS juge le risque mondial faible, mais reconnaît qu’aucun vaccin spécifique contre la souche Bundibugyo ne sera prêt à court terme.

    Banque de France : le Parlement valide la nomination d’Emmanuel Moulin

    Le Parlement ne s’est pas opposé à la nomination d’Emmanuel Moulin. L’ancien directeur du Trésor peut désormais prendre la tête de la Banque de France.

    Hantavirus : 5 réflexes pour vérifier une alerte avant de la partager

    Avant de partager une alerte virale sur le hantavirus, mieux vaut vérifier la source, le contexte et les symptômes décrits par les autorités sanitaires.

    Salmonelle : des merguez Maître Coq rappelées dans toute la France, ce qu’il faut vérifier

    Un rappel national concerne des merguez de volaille Maître Coq après détection de salmonelle. Voici le lot visé, les enseignes concernées et la conduite à tenir.

    Google muscle Gemini avec Omni Flash : pourquoi l’édition vidéo à la voix change la donne

    Google présente Gemini Omni Flash comme un nouvel outil d’édition vidéo conversationnelle. Une annonce qui en dit long sur la prochaine phase de l’IA grand public.

    Inde : une parodie politique « Cockroach Janta Party » choque le pays

    En Inde, une remarque du chef de la Cour suprême déclenche une vague de satire politique et de protestation chez la Gen Z.

    à Lire

    Categories