Home Industrie et technologie Évitez l’Intégration Prématurée des Données pour le ML

Évitez l’Intégration Prématurée des Données pour le ML

by Sara
Évitez l'Intégration Prématurée des Données pour le ML
France

Dans le domaine du machine learning (ML), il est fréquent d’entendre dire qu’il est nécessaire de mener un projet d’intégration des données en premier lieu, car toutes les données sont éparpillées au sein de l’organisation, cachées dans des silos et stockées dans des formats étranges sur des serveurs obscurs gérés par différents départements.

Les risques d’une intégration des données prématurée

Bien qu’il soit vrai que les données peuvent être difficiles d’accès, lancer un projet d’intégration de données à grande échelle avant de se lancer dans le ML est souvent une mauvaise idée. En effet, l’intégration des données sans comprendre leur utilisation future limite considérablement les chances que ces données soient adaptées à un cas d’utilisation ML. Dans cet article, nous allons examiner certains des principaux moteurs et pièges liés à ce type de projet d’intégration et proposer une approche qui se concentre sur l’optimisation du rapport qualité-prix dans ces efforts d’intégration.

La solution consiste à intégrer les données au cas par cas, en partant du cas d’utilisation pour déterminer exactement les données nécessaires.

Le désir de données propres et organisées

Il est compréhensible de vouloir procéder à l’intégration des données avant de s’attaquer aux défis de la science des données et du machine learning. Voici quatre moteurs que je rencontre souvent. Cette liste n’est pas exhaustive, mais elle couvre les motivations les plus importantes, à mon avis.

  • Développer des cas d’utilisation en IA/ML est difficile, surtout si vous ne savez pas quelles données sont disponibles et de quelle qualité elles sont.
  • Explorer des données cachées et les intégrer dans une plateforme semble plus concret et gérable.
  • De nombreuses organisations ont une culture de non-partage des données, et se concentrer sur le partage et l’intégration des données peut aider à changer cette culture.
  • Historiquement, de nombreux projets ML s’arrêtent en raison de problèmes d’accès aux données, et s’attaquer aux défis organisationnels, politiques et techniques avant le projet ML peut aider à éliminer ces barrières.

1. Créer des cas d’utilisation en IA/ML est difficile

Ce problème est un véritable dilemme : vous ne pouvez pas faire de machine learning sans les bonnes données, mais si vous ne savez pas quelles données vous avez, identifier les potentiels du machine learning devient impossible. Cette difficulté n’est pas résolue efficacement par un projet initial de découverte et d’intégration des données. Une meilleure solution repose sur une méthodologie éprouvée, qui consiste essentiellement à communiquer ensemble.

La valeur de la communication entre personnes ne peut être surestimée. C’est la seule manière de faire fonctionner une équipe et de favoriser la collaboration entre les équipes de l’organisation. Comparons cela à l’opposé, qui serait de produire une documentation exhaustive.

2. Explorer des données cachées et les intégrer semble plus maniable

C’est vrai, mais le revers de cette approche, lorsqu’elle est faite avant d’identifier le cas d’utilisation ML, est que vous ne résolvez que le problème de l’intégration des données dans une plateforme. Vous ne résolvez pas le problème de la collecte des données utiles pour le cas d’utilisation en machine learning. Intégrer des données sans avoir en vue un cas d’utilisation peut mener à des intégrations inutiles.

3. Changer la culture du partage des données

De nombreuses initiatives sont bloquées à cause de problèmes culturels au sein des organisations. Les luttes de pouvoir, la propriété des données et la réticence à partager compliquent souvent les choses. Un projet d’intégration des données à l’échelle de l’organisation ne changera pas nécessairement cette dynamique. Cependant, en interagissant avec les groupes concernés et en montrant comment leurs données peuvent aider l’organisation à s’améliorer, vous êtes plus susceptibles de les convaincre.

4. Les projets DS/ML s’arrêtent souvent à cause de problèmes d’accès aux données

Lorsque les données sont intégrées dans une plateforme, elles doivent être stockées en toute sécurité et facilement accessibles. Une stratégie et des politiques d’intégration des données sont essentielles pour les grandes organisations. Cependant, il ne faut pas intégrer les données avant de savoir si elles sont réellement nécessaires. Cela requiert un développement itératif de la plateforme de données.

5. Approche recommandée

Dans le contexte des projets ML, les efforts d’intégration des données devraient être abordés comme suit :

  • Établir une stratégie de plateforme de données, avec l’infrastructure et les politiques minimales requises.
  • Créer un catalogue de descriptions de jeux de données pouvant être interrogés par recherche en texte libre, comme outil de découverte de données à faible coût.
  • Intégrer les données dans la plateforme sur une base de cas d’utilisation, en s’assurant que les données intégrées sont à la fois nécessaires et suffisantes pour leur utilisation prévue.
  • Surmonter les barrières culturelles en incluant les ressources pertinentes dans l’équipe complète du projet ML.

Bonne chance !

Intégration Des Données | Machine Learning | Projet Ml | Stratégie De Données | France
source:https://towardsdatascience.com/a-little-more-conversation-a-little-less-action-a-case-against-premature-data-integration/

You may also like

Leave a Comment


Droits d’auteur © 2024 – onemedia.fr – Tous droits réservés