More

    Évitez l’Intégration Prématurée des Données pour le ML

    France

    Dans le domaine du machine learning (ML), il est fréquent d’entendre dire qu’il est nécessaire de mener un projet d’intégration des données en premier lieu, car toutes les données sont éparpillées au sein de l’organisation, cachées dans des silos et stockées dans des formats étranges sur des serveurs obscurs gérés par différents départements.

    Les risques d’une intégration des données prématurée

    Bien qu’il soit vrai que les données peuvent être difficiles d’accès, lancer un projet d’intégration de données à grande échelle avant de se lancer dans le ML est souvent une mauvaise idée. En effet, l’intégration des données sans comprendre leur utilisation future limite considérablement les chances que ces données soient adaptées à un cas d’utilisation ML. Dans cet article, nous allons examiner certains des principaux moteurs et pièges liés à ce type de projet d’intégration et proposer une approche qui se concentre sur l’optimisation du rapport qualité-prix dans ces efforts d’intégration.

    La solution consiste à intégrer les données au cas par cas, en partant du cas d’utilisation pour déterminer exactement les données nécessaires.

    Le désir de données propres et organisées

    Il est compréhensible de vouloir procéder à l’intégration des données avant de s’attaquer aux défis de la science des données et du machine learning. Voici quatre moteurs que je rencontre souvent. Cette liste n’est pas exhaustive, mais elle couvre les motivations les plus importantes, à mon avis.

    • Développer des cas d’utilisation en IA/ML est difficile, surtout si vous ne savez pas quelles données sont disponibles et de quelle qualité elles sont.
    • Explorer des données cachées et les intégrer dans une plateforme semble plus concret et gérable.
    • De nombreuses organisations ont une culture de non-partage des données, et se concentrer sur le partage et l’intégration des données peut aider à changer cette culture.
    • Historiquement, de nombreux projets ML s’arrêtent en raison de problèmes d’accès aux données, et s’attaquer aux défis organisationnels, politiques et techniques avant le projet ML peut aider à éliminer ces barrières.

    1. Créer des cas d’utilisation en IA/ML est difficile

    Ce problème est un véritable dilemme : vous ne pouvez pas faire de machine learning sans les bonnes données, mais si vous ne savez pas quelles données vous avez, identifier les potentiels du machine learning devient impossible. Cette difficulté n’est pas résolue efficacement par un projet initial de découverte et d’intégration des données. Une meilleure solution repose sur une méthodologie éprouvée, qui consiste essentiellement à communiquer ensemble.

    La valeur de la communication entre personnes ne peut être surestimée. C’est la seule manière de faire fonctionner une équipe et de favoriser la collaboration entre les équipes de l’organisation. Comparons cela à l’opposé, qui serait de produire une documentation exhaustive.

    2. Explorer des données cachées et les intégrer semble plus maniable

    C’est vrai, mais le revers de cette approche, lorsqu’elle est faite avant d’identifier le cas d’utilisation ML, est que vous ne résolvez que le problème de l’intégration des données dans une plateforme. Vous ne résolvez pas le problème de la collecte des données utiles pour le cas d’utilisation en machine learning. Intégrer des données sans avoir en vue un cas d’utilisation peut mener à des intégrations inutiles.

    3. Changer la culture du partage des données

    De nombreuses initiatives sont bloquées à cause de problèmes culturels au sein des organisations. Les luttes de pouvoir, la propriété des données et la réticence à partager compliquent souvent les choses. Un projet d’intégration des données à l’échelle de l’organisation ne changera pas nécessairement cette dynamique. Cependant, en interagissant avec les groupes concernés et en montrant comment leurs données peuvent aider l’organisation à s’améliorer, vous êtes plus susceptibles de les convaincre.

    4. Les projets DS/ML s’arrêtent souvent à cause de problèmes d’accès aux données

    Lorsque les données sont intégrées dans une plateforme, elles doivent être stockées en toute sécurité et facilement accessibles. Une stratégie et des politiques d’intégration des données sont essentielles pour les grandes organisations. Cependant, il ne faut pas intégrer les données avant de savoir si elles sont réellement nécessaires. Cela requiert un développement itératif de la plateforme de données.

    5. Approche recommandée

    Dans le contexte des projets ML, les efforts d’intégration des données devraient être abordés comme suit :

    • Établir une stratégie de plateforme de données, avec l’infrastructure et les politiques minimales requises.
    • Créer un catalogue de descriptions de jeux de données pouvant être interrogés par recherche en texte libre, comme outil de découverte de données à faible coût.
    • Intégrer les données dans la plateforme sur une base de cas d’utilisation, en s’assurant que les données intégrées sont à la fois nécessaires et suffisantes pour leur utilisation prévue.
    • Surmonter les barrières culturelles en incluant les ressources pertinentes dans l’équipe complète du projet ML.

    Bonne chance !

    Intégration Des Données | Machine Learning | Projet Ml | Stratégie De Données | France
    source:https://towardsdatascience.com/a-little-more-conversation-a-little-less-action-a-case-against-premature-data-integration/

    LAISSER UN COMMENTAIRE

    S'il vous plaît entrez votre commentaire!
    S'il vous plaît entrez votre nom ici


    Actualités

    L’acteur de Friends, Matthew Perry, décède à 54 ans

    "Matthew Perry, célèbre pour son rôle de Chandler Bing dans Friends, décède à 54 ans. Acteur très apprécié, sa mort suscite l'émotion mondiale."

    Entité sioniste déploie des navires de guerre en Mer Rouge selon un expert militaire

    Entité sioniste déploie des navires de guerre en Mer Rouge pour contrer les Houthis au Yémen, une manœuvre vue comme une démonstration de force envers l'Iran.

    L’affaire des SMS entre Pfizer et la Commission européenne : ce qu’il faut savoir

    En avril 2021, le New York Times a révélé...

    Banque suisse : Credit Suisse en chute libre après la faillite de la SVB

    L'action de Credit Suisse a dévissé de plus de...

    Le Retour de Microsoft avec Bing et Edge : Une Menace pour Google ?

    Depuis moins de trois mois, ChatGPT a déjà créé...

    Zelenskyy: des intercepteurs ukrainiens abattent des drones iraniens

    Zelenskyy confirme l’usage de drones intercepteurs ukrainiens contre des drones iraniens au Moyen-Orient.

    Iran-États-Unis-Israël : cessez-le-feu de 2 semaines et tensions

    Iran, États-Unis et Israël concluent une trêve de deux semaines avant des pourparlers à Islamabad sur le détroit d'Ormuz.

    Sooryavanshi défie Bumrah et illumine l’IPL avec Rajasthan

    À 15 ans, Sooryavanshi a marqué 39 en 14 balles face à Bumrah et porté Rajasthan Royals à une victoire éclatante en IPL.

    Cessez-le-feu entre les États-Unis et l’Iran : le monde réagit

    Un cessez-le-feu de deux semaines entre les États-Unis et l'Iran suscite des réactions mondiales et des appels à une paix durable au Moyen-Orient.

    Iran et Chine contestent l’hégémonie du dollar dans le détroit d’Ormuz

    Iran et Chine utilisent le yuan dans le détroit d’Ormuz pour réduire leur dépendance au dollar et contourner les sanctions américaines.

    Netanyahu précise que la trêve US-Iran ne concerne pas le Liban

    Netanyahu soutient la trêve US-Iran, mais affirme qu’elle ne s’applique pas aux opérations israéliennes au Liban.

    Iran et États-Unis : négociations à Islamabad vendredi

    Iran et États-Unis entament des négociations à Islamabad vendredi après un cessez-le-feu de deux semaines autour du détroit d'Ormuz.

    Israël frappe un pont ferroviaire en Iran avant l’échéance Trump

    Israël frappe un pont ferroviaire à Kashan, en Iran, tandis que Trump menace les infrastructures avant l’échéance sur le détroit d’Ormuz.

    à Lire

    Categories