Données de mauvaise qualité : un obstacle majeur en Machine Learning
Alors que les applications commerciales de l'intelligence artificielle et de l'apprentissage automatique se multiplient et transforment rapidement divers secteurs, une vérité demeure : la qualité des données est le pilier sur lequel reposent ces avancées technologiques.
L'apprentissage automatique (Machine Learning - ML) est devenu incontournable dans de nombreuses industries, et permet de construire des produits IA divers depuis quelques années. L’approche dominante est centrée sur les données et, pour que les modèles ML puissent réellement apporter de la valeur à une entreprise, la qualité des données utilisées est d'une importance fondamentale. Dans cet article, nous explorons pourquoi la qualité des données est essentielle, et pourquoi un travail minutieux et laborieux de préparation des données constitue le socle d’une grande majorité de produits IA.
Pourquoi la qualité des données est le pilier de vos projets IA ?
Les algorithmes de ML se nourrissent de données pour apprendre et faire des prédictions. Toutefois, toutes les données n’ont pas la même valeur. La qualité des données est un déterminant majeur de la précision et de la fiabilité des modèles de ML.
Les professionnels travaillant sur des projets de ML (Data Scientists, Développeurs, Data Labelers, etc.) connaissent bien les défis. De nombreux projets semblent stagner durant les phases de test, avant le déploiement, principalement en raison du manque de qualité dans l'annotation des données à l’échelle. Les erreurs humaines, les hypothèses floues, l'aspect subjectif et ambigu de la tâche d'annotation et surtout un manque de supervision et de considération du travail réalisé par les Data Labelers contribuent souvent à ces problèmes.
Des données annotées en masse mais de façon approximative… un désastre !
L'inexactitude des données peut être le résultat d'erreurs humaines, de techniques de collecte de données défaillantes ou de problèmes avec la source de données. Lorsqu'un modèle de ML est formé sur des données incorrectes, il peut prendre de mauvaises décisions.
Quelques exemples pour illustrer les impacts de modèles entraînés avec des données imparfaites sur des produits et cas d’utilisation :
1. Diagnostic médical erroné
Imaginez un système d'IA destiné à aider les médecins dans le diagnostic des maladies. Si ce système est formé sur des données médicales incorrectes ou incomplètes, il pourrait conduire à des diagnostics erronés, mettant en danger la vie des patients. Une telle situation souligne l'impératif d'avoir des données médicales précises et complètes pour garantir la fiabilité des systèmes d'IA en médecine. Pour éviter cela, et permettre le développement de produits IA médicaux performants et la formation des chirurgiens partout dans le monde, le collectif SDSC travaille sur une base de données médicales annotées pour l’IA.
2. Erreurs de traduction automatique
Les systèmes de traduction automatique utilisent des modèles d'apprentissage automatique pour traduire des textes. Si les données d'entraînement contiennent des erreurs ou des traductions incorrectes, les résultats de la traduction automatique peuvent être inexacts, ce qui peut entraîner des malentendus et des problèmes de communication.
3. Les faux positifs en sécurité informatique
Dans le domaine de la sécurité informatique, les systèmes de détection d'intrusions et d’activités malveillantes se basent sur des modèles de ML. Si les données utilisées pour former ces modèles contiennent des exemples incorrects ou mal étiquetés, cela peut conduire à des faux positifs, ce qui signifie que des actions légitimes sont signalées à tort comme des menaces, entraînant une réaction inutile et conduisant à une perte de temps pour lees activités de surveillance des menaces (SOC), polluées par des fausses alertes.
4. Des systèmes de recommandation de films imparfaits
Imaginez un système de recommandation de films. Imaginez que ce système, basé sur l'apprentissage automatique, recommande des films aux utilisateurs en se fondant sur leurs préférences passées. Cependant, un biais insidieux se glisse dans le modèle, faisant en sorte que les utilisateurs se voient recommander principalement des films d'un genre spécifique, comme l'action, au détriment d'autres genres tels que la comédie ou le drame.
Le jeu de données utilisé pour former le modèle était déséquilibré, avec une sur-représentation massive de films d'action, tandis que d'autres genres étaient sous-représentés. Le modèle a ainsi appris à favoriser les films d'action, négligeant les préférences variées des utilisateurs. Cet exemple met en évidence l'importance de disposer de données d'entraînement équilibrées et représentatives pour garantir des recommandations précises et pertinentes.
5. Échec du système de freinage d’urgence d’un véhicule
Imaginez une situation où un constructeur automobile met en place un système de freinage d'urgence automatisé, conçu pour détecter les obstacles et arrêter la voiture en cas de danger imminent. Ce système repose sur des capteurs, des caméras et des données de cartographie pour fonctionner correctement.
Lors des premiers tests sur route, le système de freinage d'urgence ne réagit pas de manière appropriée aux piétons et aux obstacles. Il freine brusquement sans raison, tandis que dans d'autres, il ne réagit pas du tout à des objets en mouvement. Ces dysfonctionnements s'expliquent par des données de capteurs erronées et des incohérences dans les données de cartographie utilisées pour former le modèle du système.
Il s’avère que les données collectées pour la formation du modèle de freinage d'urgence étaient incomplètes et imprécises. Les scénarios de test n'avaient pas couvert suffisamment de situations du monde réel, ce qui a conduit à un système mal préparé pour réagir correctement en situation d'urgence.
Cet exemple souligne que, même dans un secteur comme l’automobile, où la sécurité est primordiale, la qualité des données utilisées pour former les systèmes autonomes est cruciale. Des données erronées ou incomplètes peuvent mettre en danger la vie des conducteurs, des passagers et des piétons, mettant ainsi en évidence l'importance de la rigueur dans la collecte et la validation des données pour garantir la fiabilité des systèmes de conduite autonome.
Pour atténuer l'impact des données inexactes, il est essentiel de valider soigneusement les données avant de les utiliser. Les annotateurs doivent être formés à la tâche, aux logiciels d'annotation (LabelBox, Encord, V7 Labs, Label Studio, CVAT, etc.) et à l'exactitude requise. Des directives claires et des exemples de données annotées peuvent garantir la cohérence et la précision des données.
Le piège des données non représentatives
Des données non représentatives peuvent fausser les modèles ML. De nombreux exemples dans le domaine de la reconnaissance facile ont défrayé la chronique. On pense par exemple aux biais liés à la qualité des données concernant les systèmes de reconnaissance faciale, qui sont de plus en plus utilisés pour l'authentification, la sécurité et d'autres applications. Cependant, plusieurs systèmes de reconnaissance faciale ont montré des tendances de biais racial et ethnique en raison de données d'entraînement déséquilibrées.
Prenons le cas d'un système de reconnaissance faciale utilisé par les forces de l'ordre pour identifier des suspects. Si les données d'entraînement sont principalement composées de visages d'une seule ethnie, le système peut avoir du mal à identifier correctement les visages d'autres groupes ethniques. Cela peut entraîner des erreurs d'identification, des arrestations injustes et la perpétuation de stéréotypes discriminatoires.
Cet exemple met en évidence qu’il est nécessaire de disposer de données d'entraînement diverses et représentatives pour garantir que les systèmes de reconnaissance faciale ne favorisent pas un groupe ethnique au détriment d'un autre, et pour éviter les conséquences préjudiciables liées à la discrimination et à la justice biaisée. En outre, selon les cas d’usage, ces données gagneront à être préparées par des groupes d'annotateurs aux profils variés.
En conclusion…
La qualité des données est un pilier essentiel de la réussite de vos projets IA. Les erreurs dans l'annotation, les données biaisées et les informations manquantes peuvent mettre en péril la fiabilité des modèles de ML. En suivant des bonnes pratiques telles que la formation des annotateurs d’images, vidéos et textes, la validation des données et la surveillance continue, les Data Scientists et autres développeurs IA peuvent maximiser la valeur de leurs initiatives de ML et éviter nombreux pièges associés à la préparation des données.