Le défi des données face aux géants de l'IA

Le défi des données face aux géants de l’IA

À la fin de 2021, alors que la société Open AI formait ses modèles d’intelligence artificielle, elle a été confrontée à une crise d’approvisionnement. Elle avait épuisé tout le stock de textes anglais fiables en ligne lors du développement de ses derniers systèmes d’IA et avait besoin de plus de bonnes données pour entraîner la prochaine version de son système. Elle avait donc besoin de beaucoup plus de ces données.

Les chercheurs d’Open AI ont donc créé un outil de transcription vocale appelé « Whisper » capable de copier les voix à partir de vidéos YouTube, produisant ainsi de nouveaux scripts de conversation qui pourraient rendre le système d’IA plus intelligent. Selon le New York Times, certains employés de l’entreprise ont discuté de la manière dont cette étape était en contradiction avec les règles de YouTube, le site appartenant à Google interdisant l’utilisation de ses clips dans des applications distinctes de la plateforme.

En fin de compte, l’équipe d’Open AI a extrait plus d’un million d’heures de vidéos YouTube, utilisant ces données pour former le modèle « GP-4 », le plus puissant modèle d’IA de l’entreprise.

Poursuites désespérées

La course à la tête du secteur de l’IA générative s’est transformée en des efforts désespérés pour obtenir la plus grande quantité de données numériques nécessaires au développement de ces technologies. Pour saisir cette énorme quantité de données, des sociétés technologiques telles qu’Open AI, Google et Meta ont employé tous les moyens, ignorant les politiques des entreprises et cherchant à contourner la loi, selon le New York Times.

Par exemple, chez Meta, propriétaire de Facebook et Instagram, des responsables ont discuté de la collecte de données protégées par des droits d’auteur sur Internet, même si cela signifiait des poursuites judiciaires et ont ajouté que les négociations pour obtenir des licences d’utilisation du contenu avec les éditeurs, les artistes, les musiciens et l’industrie des nouvelles prendraient beaucoup de temps.

À l’instar de ce qu’a fait Open AI, Google a profité du contenu des vidéos sur YouTube pour extraire des scripts pour former ses modèles d’IA, une action qui pourrait violer les droits d’auteur des créateurs de ce contenu.

Le sang de l’IA

Les pratiques de ces entreprises montrent comment les données en ligne, allant des actualités aux œuvres de fiction en passant par les publications sur les réseaux sociaux, les articles Wikipedia, les images, les vidéos, les podcasts, les films, et plus encore, sont devenues le sang vital de l’industrie émergente de l’intelligence artificielle. Le développement de systèmes puissants et compétitifs repose sur la disponibilité de suffisamment de données pour apprendre à ces modèles à produire des textes, des images, des sons et des vidéos semblables à ceux produits par les humains instantanément.

Il convient de noter que le volume de données est crucial. Les principaux robots de conversation, tels que GPT, ont appris à partir de vastes ensembles de textes numériques atteignant 3 trillions de mots, soit environ le double du nombre de mots stockés à la Bodleian Library, principale bibliothèque de recherche de l’Université d’Oxford, rassemblant des manuscrits depuis 1602. Les chercheurs en intelligence artificielle notent que les données les plus précieuses sont les informations de haute qualité, telles que les livres et les articles publiés écrits et édités avec soin par des experts dans leurs domaines.

Données artificielles

Les entreprises technologiques sont devenues si avides de nouvelles données que certaines ont commencé à développer des « données artificielles ». Il ne s’agit pas de données naturelles produites par les humains, mais de textes, d’images et de codes générés par des modèles d’IA, c’est-à-dire que les systèmes apprennent d’eux-mêmes ce qu’ils produisent.

Par exemple, Open AI a mentionné que chaque modèle de leur IA possède un ensemble de données unique que l’entreprise organise et collecte dans le but d’aider le modèle à comprendre le monde pour préserver sa compétitivité dans le domaine.

Sam Altman a précédemment mentionné que les entreprises développant des modèles devront finalement entraîner ces modèles sur les textes générés par l’IA, ou ce qu’on appelle les données artificielles. La théorie avancée par M. Altman et d’autres dans ce domaine est que, puisque le modèle d’IA est capable de produire des textes similaires à ceux des humains, les systèmes peuvent générer des données supplémentaires pour améliorer les versions ultérieures d’eux-mêmes. Cela aiderait les développeurs à créer des technologies plus puissantes et à réduire leur dépendance sur les données protégées par des droits d’auteur.

Le défi des données face aux géants de l’IA

Sommaire [hide]