More

    Évitez l’Intégration Prématurée des Données pour le ML

    France

    Dans le domaine du machine learning (ML), il est fréquent d’entendre dire qu’il est nécessaire de mener un projet d’intégration des données en premier lieu, car toutes les données sont éparpillées au sein de l’organisation, cachées dans des silos et stockées dans des formats étranges sur des serveurs obscurs gérés par différents départements.

    Les risques d’une intégration des données prématurée

    Bien qu’il soit vrai que les données peuvent être difficiles d’accès, lancer un projet d’intégration de données à grande échelle avant de se lancer dans le ML est souvent une mauvaise idée. En effet, l’intégration des données sans comprendre leur utilisation future limite considérablement les chances que ces données soient adaptées à un cas d’utilisation ML. Dans cet article, nous allons examiner certains des principaux moteurs et pièges liés à ce type de projet d’intégration et proposer une approche qui se concentre sur l’optimisation du rapport qualité-prix dans ces efforts d’intégration.

    La solution consiste à intégrer les données au cas par cas, en partant du cas d’utilisation pour déterminer exactement les données nécessaires.

    Le désir de données propres et organisées

    Il est compréhensible de vouloir procéder à l’intégration des données avant de s’attaquer aux défis de la science des données et du machine learning. Voici quatre moteurs que je rencontre souvent. Cette liste n’est pas exhaustive, mais elle couvre les motivations les plus importantes, à mon avis.

    • Développer des cas d’utilisation en IA/ML est difficile, surtout si vous ne savez pas quelles données sont disponibles et de quelle qualité elles sont.
    • Explorer des données cachées et les intégrer dans une plateforme semble plus concret et gérable.
    • De nombreuses organisations ont une culture de non-partage des données, et se concentrer sur le partage et l’intégration des données peut aider à changer cette culture.
    • Historiquement, de nombreux projets ML s’arrêtent en raison de problèmes d’accès aux données, et s’attaquer aux défis organisationnels, politiques et techniques avant le projet ML peut aider à éliminer ces barrières.

    1. Créer des cas d’utilisation en IA/ML est difficile

    Ce problème est un véritable dilemme : vous ne pouvez pas faire de machine learning sans les bonnes données, mais si vous ne savez pas quelles données vous avez, identifier les potentiels du machine learning devient impossible. Cette difficulté n’est pas résolue efficacement par un projet initial de découverte et d’intégration des données. Une meilleure solution repose sur une méthodologie éprouvée, qui consiste essentiellement à communiquer ensemble.

    La valeur de la communication entre personnes ne peut être surestimée. C’est la seule manière de faire fonctionner une équipe et de favoriser la collaboration entre les équipes de l’organisation. Comparons cela à l’opposé, qui serait de produire une documentation exhaustive.

    2. Explorer des données cachées et les intégrer semble plus maniable

    C’est vrai, mais le revers de cette approche, lorsqu’elle est faite avant d’identifier le cas d’utilisation ML, est que vous ne résolvez que le problème de l’intégration des données dans une plateforme. Vous ne résolvez pas le problème de la collecte des données utiles pour le cas d’utilisation en machine learning. Intégrer des données sans avoir en vue un cas d’utilisation peut mener à des intégrations inutiles.

    3. Changer la culture du partage des données

    De nombreuses initiatives sont bloquées à cause de problèmes culturels au sein des organisations. Les luttes de pouvoir, la propriété des données et la réticence à partager compliquent souvent les choses. Un projet d’intégration des données à l’échelle de l’organisation ne changera pas nécessairement cette dynamique. Cependant, en interagissant avec les groupes concernés et en montrant comment leurs données peuvent aider l’organisation à s’améliorer, vous êtes plus susceptibles de les convaincre.

    4. Les projets DS/ML s’arrêtent souvent à cause de problèmes d’accès aux données

    Lorsque les données sont intégrées dans une plateforme, elles doivent être stockées en toute sécurité et facilement accessibles. Une stratégie et des politiques d’intégration des données sont essentielles pour les grandes organisations. Cependant, il ne faut pas intégrer les données avant de savoir si elles sont réellement nécessaires. Cela requiert un développement itératif de la plateforme de données.

    5. Approche recommandée

    Dans le contexte des projets ML, les efforts d’intégration des données devraient être abordés comme suit :

    • Établir une stratégie de plateforme de données, avec l’infrastructure et les politiques minimales requises.
    • Créer un catalogue de descriptions de jeux de données pouvant être interrogés par recherche en texte libre, comme outil de découverte de données à faible coût.
    • Intégrer les données dans la plateforme sur une base de cas d’utilisation, en s’assurant que les données intégrées sont à la fois nécessaires et suffisantes pour leur utilisation prévue.
    • Surmonter les barrières culturelles en incluant les ressources pertinentes dans l’équipe complète du projet ML.

    Bonne chance !

    Intégration Des Données | Machine Learning | Projet Ml | Stratégie De Données | France
    source:https://towardsdatascience.com/a-little-more-conversation-a-little-less-action-a-case-against-premature-data-integration/

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    OpenAI élargit Codex : Sites, annotations et extensions métiers expliqués

    OpenAI ajoute à Codex des Sites, annotations et extensions par rôle. Ce que ces nouveautés changent pour les équipes et leurs limites.

    Qwant au Parlement européen : ce que la bascule change vraiment

    Qwant devient le moteur par défaut au Parlement européen : ce que ce choix change, ce qu’il ne change pas et pourquoi il reste surtout symbolique.

    Google Gemma 4 12B : l’IA locale veut sortir du cloud

    Gemma 4 12B vise l’IA multimodale en local sur ordinateur portable, avec exécution hors cloud et une contrainte matérielle centrale : 16GB de mémoire.

    Microsoft MAI : pourquoi ses sept modèles d’IA maison comptent vraiment

    Microsoft a présenté sept modèles MAI développés en interne à Build 2026. Raisonnement, code, image, voix : voici ce qui est confirmé et ce qui reste limité.

    Microsoft Scout : ce que l’agent IA change vraiment dans Microsoft 365

    Microsoft Scout inaugure les agents Autopilot dans Microsoft 365 : tâches en arrière-plan, OpenClaw, préversion limitée et garde-fous à connaître.

    Android Drop juin 2026 : partage avec l’iPhone, sécurité et IA utile

    Android Drop de juin 2026 étend Quick Share avec AirDrop, ajoute des fonctions de sécurité et déploie plusieurs usages IA côté Android.

    Google Drive : Gemini veut ranger vos fichiers sans décider à votre place

    La nouvelle option de Google Drive propose de classer les fichiers épars avec Gemini, mais les déplacements restent soumis à validation.

    State of Play juin 2026 : les annonces PS5 qui comptent vraiment

    Marvel’s Wolverine, God of War Laufey, Rayman, Tomb Raider, Silent Hill : le State of Play de juin 2026 redessine le calendrier PS5.

    à Lire

    Categories