3 méthodes de Data Labeling pour vos modèles IA
Le Data Labeling ou labellisation de données est un processus essentiel dans le domaine de l'apprentissage automatique. Il consiste à associer des étiquettes ou des labels à des données, afin de les rendre exploitables par les algorithmes d'apprentissage automatique (Machine Learning ou Deep Learning). "Alimenté" par ces données traitées et enrichies, un modèle IA de prédiction pourra apprendre à effectuer une tâche spécifique, comme la reconnaissance de la parole dans une langue définie ou la détection d'objets dans une image (exemple : détection de véhicules sur une autoroute).
Il existe plusieurs méthodes de Data Labeling, chacune ayant ses propres avantages et inconvénients. Voici quelques exemples courants :
1. Le Data Labeling manuel
Il s'agit de la méthode la plus courante et la plus simple. Elle consiste à utiliser un humain pour étiqueter les données de manière manuelle. Cette méthode est particulièrement utile pour les données de qualité inférieure (set d'images flous qui demande une interprétation humaine ou pour les tâches complexes qui nécessitent réflexion, compréhension ou interprétation humaine. Cependant, elle peut être coûteuse et prendre beaucoup de temps, en particulier lorsque les données sont volumineuses. Elle peut également demander un certain nombre de revues pour limiter les erreurs d'inattention et autres approximations naturelles lorsqu'une personne passe plusieurs heures sur un même set de données.
2. Le Data Labeling automatisé
Il s'agit de la méthode la plus rapide et la plus économique, mais elle peut être moins précise que le Data Labeling manuel, voire pas précise du tout. Elle utilise des algorithmes d'apprentissage pour étiqueter les données de manière automatique. Cette méthode est particulièrement utile pour les données de qualité supérieure et pour les tâches simples qui ne nécessitent pas une compréhension humaine. Les approximations peuvent être toutefois nombreuses, et surtout atypiques, notamment pour des images ou vidéos de faible qualité. Il est rare que cette méthode soit autosuffisante pour obtenir des résultats de qualité - elle est très souvent associée à des revues qualité humaines (corrections réalisées par une équipe de Data Labelers).
3. Le Data Labeling hybride
Il s'agit d'une combinaison des deux méthodes précédentes. Elle consiste à utiliser un humain pour étiqueter certaines données, tandis que d'autres sont étiquetées de manière automatique. Cette méthode peut être particulièrement utile lorsque les données sont de qualité moyenne et que certaines tâches sont complexes tandis que d'autres sont simples. Il peut également s’agir d’utiliser des fonctionnalités des plateformes de Data Labeling, telles que l’Active Learning, afin d’améliorer en continu les résultats du modèle et faciliter le travail des Data Labelers.
Il n'y a pas de solution pré-déterminée pour labelliser ses données de façon précise. La meilleure approche consiste à allouer quelques heures à la définition d'une stratégie de labellisation. Voici une liste de critères pouvant être déterminés en amont de tout projet d'annotation :
- Nombre de Data Labelers requis
- Format du sourcing (interne, externe, profils disposant d'une spécialisation fonctionnelle ou non, ...)
- Fonctionnalités attendues de la plateforme de labeling (tracking, ergonomie, types d'annotation, activation possible de fonctionnalités d'Active Learning, ...)
Il est important de choisir la bonne méthode de Data Labeling : la meilleure méthode est celle qui est adaptée à vos enjeux, à vos exigences de qualité, vos moyens ainsi que la nature des tâches à accomplir. Rappelons qu’un étiquetage des données de mauvaise qualité peut entraîner des résultats imprécis et inutiles !
Malgré les progrès réalisés ces dernières années, le Data Labeling reste une tâche fastidieuse et coûteuse pour de nombreux professionnels du domaine du Machine Learning. Cependant, il demeure indispensable pour entraîner et améliorer les algorithmes d'apprentissage automatique, et de nouvelles solutions sont constamment développées. N’oubliez pas qu’un bon produit IA ne repose pas que sur les modèles : pour construire vos produits, vous aurez besoin de données massives et de qualité !