More

    Le défi des données face aux géants de l’IA

    Le défi des données face aux géants de l’IA

    À la fin de 2021, alors que la société Open AI formait ses modèles d’intelligence artificielle, elle a été confrontée à une crise d’approvisionnement. Elle avait épuisé tout le stock de textes anglais fiables en ligne lors du développement de ses derniers systèmes d’IA et avait besoin de plus de bonnes données pour entraîner la prochaine version de son système. Elle avait donc besoin de beaucoup plus de ces données.

    Les chercheurs d’Open AI ont donc créé un outil de transcription vocale appelé « Whisper » capable de copier les voix à partir de vidéos YouTube, produisant ainsi de nouveaux scripts de conversation qui pourraient rendre le système d’IA plus intelligent. Selon le New York Times, certains employés de l’entreprise ont discuté de la manière dont cette étape était en contradiction avec les règles de YouTube, le site appartenant à Google interdisant l’utilisation de ses clips dans des applications distinctes de la plateforme.

    En fin de compte, l’équipe d’Open AI a extrait plus d’un million d’heures de vidéos YouTube, utilisant ces données pour former le modèle « GP-4 », le plus puissant modèle d’IA de l’entreprise.

    Poursuites désespérées

    La course à la tête du secteur de l’IA générative s’est transformée en des efforts désespérés pour obtenir la plus grande quantité de données numériques nécessaires au développement de ces technologies. Pour saisir cette énorme quantité de données, des sociétés technologiques telles qu’Open AI, Google et Meta ont employé tous les moyens, ignorant les politiques des entreprises et cherchant à contourner la loi, selon le New York Times.

    Par exemple, chez Meta, propriétaire de Facebook et Instagram, des responsables ont discuté de la collecte de données protégées par des droits d’auteur sur Internet, même si cela signifiait des poursuites judiciaires et ont ajouté que les négociations pour obtenir des licences d’utilisation du contenu avec les éditeurs, les artistes, les musiciens et l’industrie des nouvelles prendraient beaucoup de temps.

    À l’instar de ce qu’a fait Open AI, Google a profité du contenu des vidéos sur YouTube pour extraire des scripts pour former ses modèles d’IA, une action qui pourrait violer les droits d’auteur des créateurs de ce contenu.

    Le sang de l’IA

    Les pratiques de ces entreprises montrent comment les données en ligne, allant des actualités aux œuvres de fiction en passant par les publications sur les réseaux sociaux, les articles Wikipedia, les images, les vidéos, les podcasts, les films, et plus encore, sont devenues le sang vital de l’industrie émergente de l’intelligence artificielle. Le développement de systèmes puissants et compétitifs repose sur la disponibilité de suffisamment de données pour apprendre à ces modèles à produire des textes, des images, des sons et des vidéos semblables à ceux produits par les humains instantanément.

    Il convient de noter que le volume de données est crucial. Les principaux robots de conversation, tels que GPT, ont appris à partir de vastes ensembles de textes numériques atteignant 3 trillions de mots, soit environ le double du nombre de mots stockés à la Bodleian Library, principale bibliothèque de recherche de l’Université d’Oxford, rassemblant des manuscrits depuis 1602. Les chercheurs en intelligence artificielle notent que les données les plus précieuses sont les informations de haute qualité, telles que les livres et les articles publiés écrits et édités avec soin par des experts dans leurs domaines.

    Données artificielles

    Les entreprises technologiques sont devenues si avides de nouvelles données que certaines ont commencé à développer des « données artificielles ». Il ne s’agit pas de données naturelles produites par les humains, mais de textes, d’images et de codes générés par des modèles d’IA, c’est-à-dire que les systèmes apprennent d’eux-mêmes ce qu’ils produisent.

    Par exemple, Open AI a mentionné que chaque modèle de leur IA possède un ensemble de données unique que l’entreprise organise et collecte dans le but d’aider le modèle à comprendre le monde pour préserver sa compétitivité dans le domaine.

    Sam Altman a précédemment mentionné que les entreprises développant des modèles devront finalement entraîner ces modèles sur les textes générés par l’IA, ou ce qu’on appelle les données artificielles. La théorie avancée par M. Altman et d’autres dans ce domaine est que, puisque le modèle d’IA est capable de produire des textes similaires à ceux des humains, les systèmes peuvent générer des données supplémentaires pour améliorer les versions ultérieures d’eux-mêmes. Cela aiderait les développeurs à créer des technologies plus puissantes et à réduire leur dépendance sur les données protégées par des droits d’auteur.

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Israël frappe 44 zones du sud du Liban, Hezbollah riposte

    Israël a frappé 44 zones du sud du Liban, causant 10 morts. Le Hezbollah a riposté avec 60 attaques contre des cibles israéliennes.

    Trump menace l’Iran : frappes massives annoncées dans 2-3 semaines

    Trump menace des frappes « très puissantes » contre l'Iran dans 2-3 semaines, visant à détruire ses capacités militaires et nucléaires. Pays concernés : USA, Iran.

    Abu Obeida salue les mobilisations syriennes pour al‑Aqsa et les détenus

    Abu Obeida salue les manifestations en Syrie en soutien à al‑Aqsa et aux prisonniers palestiniens. Pays concernés : Syrie, Palestine, Israël.

    Un juge suspend la construction du ballroom de 400 M$ de Trump

    Un juge fédéral bloque temporairement le projet de ballroom à 400 M$ de Donald Trump à la Maison-Blanche en attendant l'autorisation du Congrès.

    Trump veut partir en 2-3 semaines et défie ses alliés sur le pétrole

    Trump affirme que les États-Unis pourraient mettre fin à la guerre contre l'Iran en 2-3 semaines et invite les alliés à se procurer leur propre pétrole.

    Gâteau au citron sans gluten, recette végétarienne

    Envie d'un gâteau au citron sans gluten, recette végétarienne, ultra moelleux grâce à une purée de pommes de terre?

    Interceptions au Koweït, Arabie saoudite et EAU; attaques en Irak

    Défenses aériennes ont intercepté missiles et drones au Koweït, Arabie saoudite et EAU; incidents et frappes signalés en Irak et Bahreïn.

    Guerre en Iran : quel dilemme stratégique pour la Chine ?

    Face à la guerre américano-israélienne contre l'Iran, la Chine privilégie prudence et diplomatie : le conflit teste sa stratégie et ses intérêts.

    à Lire

    Categories