Le Data Labeling est une profession, pas un petit boulot
[Source dont s'inspire notre article : Deep Learning AI - The Batch - Numéro 204 - https://www.deeplearning.ai/the-batch/issue-204/]
Dans une approche de l'IA centrée sur les données, le développement de produits IA performants dépend de données annotées avec précision
Cependant, le caractère exigeant du travail de Data Labeling et les coûts associés à l'annotation des données à grande échelle encouragent les entreprises à chercher des solutions pour automatiser le travail d'annotation ou font appel à des prestataires free-lance faiblement payés. Ces Data Labelers, souvent sourcés via des plateformes comme Amazon Mechanical Turk ou Upwork, sont très sollicités et ont parfois tendance à bâcler le travail pour respecter les deadlines strictes qui leur sont imposées, ou à abandonner. Pourtant, tout le monde bénéficierait de considérer l'annotation des données moins comme un travail occasionnel ou un "petit boulot", et plus comme une profession à part entière.
Comment fonctionne l'industrie de l'annotation de données ?
Les entreprises fournissant des services de mise à disposition d'annotateurs (ou Data Labelers), telles que Centaur Labs, Surge AI ou Remotasks (qui appartient à Scale AI) et quantité d'autres acteurs majeurs du secteur, utilisent des systèmes de crowdsourcing automatisés ou manuels pour gérer des travailleurs indépendants du monde entier. Les Data Labelers free-lance doivent passer des examens de qualification, suivre une formation et être évalués régulièrement pour effectuer des tâches telles que le tracé de "Bounding Box" sur des images ou vidéos, la classification des sentiments exprimés dans les publications sur les réseaux sociaux, l'évaluation de clips vidéo à caractère sexuel dans certains cas, le tri des transactions bancaires ou l'évaluation des réponses de chatbots.
Des défis liés à la stabilité de l'emploi et des salaires des Data Labelers free-lance
L'échelle des salaires pour les Data Labelers varie de façon considérable en fonction de la localisation des travailleurs et de la tâche qui leur est assignée, allant de 1 dollar de l'heure au Kenya jusqu'à 25 dollars de l'heure, voire plus, aux États-Unis. Certaines tâches nécessitant des connaissances fonctionnelles ou spécialisées, un jugement éclairé et/ou une quantité de travail importante peuvent être rémunérées jusqu'à 300 dollars par micro-tâche.
Par ailleurs, ce travail est généralement peu stable et ne tient pas compte du droit du travail : si un Data Labeler est absent une journée pour aller chez le médecin ou est victime d'une coupure d'électricité ou de connexion Internet, il est immédiatement remplacé par le système de crowdsourcing. En outre, il n'y a dans ce système aucune tolérance pour les moments de fatigue ou les problèmes de performance passagers : quelques erreurs de trop et c'est la fin du contrat pour le Data Labeler !
En considérant le Data Labeling comme une tâche simple et accessible de tous, les entreprises cherchent à réduire les coûts de façon drastique jusqu'à négocier des taux horaires indécents. Si avoir recours à une solution offshore est souvent judicieux pour réduire vos coûts, ne vous y méprenez pas : il n'est pas possible d'obtenir à la fois un service de qualité et respectant les droits humains fondamentaux à moins de 5 EUR de l'heure (ce qui est déjà très faible !) pour un Data Labeler, qu'importe que celui-ci soit localisé en Inde, aux Philippines ou à Madagascar.
Ce système mis en place est malheureusement trop impersonnel aujourd'hui : afin de protéger les secrets commerciaux de leurs clients, les sociétés attribuent des tâches sans révéler aux Data Labelers l'identité de leur client, l'application ou la fonction concernée. Les Data Labelers ne connaissent pas la finalité des annotations qu'ils produisent et s'engagent à ne pas parler de leur travail. Il en résulte une perte de sens, et des sets de données de qualité médiocre à mauvaise... pas idéal pour entraîner des modèles !
Des défis liés aux instructions communiquées aux Data Labelers et à leur formation
Les instructions des tâches de labellisation sont souvent très peu documentées et ambiguës. Par exemple, ces tâches peuvent demander l'annotation de vêtements portés par des êtres humains, ce qui exclut les vêtements sur une photo d'une poupée ou d'un personnage de dessin animé. Mais que dire des images de vêtements reflétés dans un miroir ? Et une armure compte-t-elle comme un vêtement ? Et les masques de plongée ? Au fur et à mesure que les Data Scientists et développeurs itèrent sur leurs modèles, les règles régissant l'annotation des données deviennent de plus en plus complexes, obligeant les annotateurs à prendre en compte une variété croissante d'exceptions et de cas particuliers. A la première erreur ou au premier oubli, les Data Labelers risquent de perdre leur emploi ! Bien souvent, leurs clients n'ont pas fait l'effort de documenter de façon précise les cas particuliers ou atypiques, les exceptions ou les potentiels problèmes de qualité de données du set initial. Dans de nombreux cas, aucune discussion n'est possible entre le client et le Data Labeler freelance, qui se retrouve en difficulté et finit par abandonner son travail, quitte à ne pas être payé pour le travail déjà réalisé sur la plate-forme de crowdsourcing. C'est une aberration !
Des défis liés aux conditions de travail, aux horaires et à l'incertitude des micro-tâches d'annotation des données
Dans le monde du Data Labeling, les horaires de travail sont souvent sporadiques et imprévisibles. Les travailleurs ne savent pas quand la prochaine tâche va arriver, ni combien de temps elle va durer, si elle sera intéressante ou accablante, ou si elle sera bien ou mal rémunérée. Cette incertitude, combinée à l'écart entre leur salaire horaire et les revenus de leurs employeurs tels que rapportés dans la presse, peut démoraliser les travailleurs.
De nombreux annotateurs gèrent le stress en se regroupant clandestinement sur WhatsApp pour partager des informations et demander des conseils sur la manière de trouver des tâches intéressantes et d'éviter les travaux qu'ils jugent indésirables. Ils y apprennent des astuces, comme utiliser des modèles d'intelligence artificielle existants pour effectuer le travail à leur place pour les tâches les plus simples, se connecter via des serveurs proxy pour masquer leur localisation et créer plusieurs comptes pour se prémunir contre une suspension en cas de violation des règles définies par les sociétés qui leur proposent du travail.
L'importance de la profession de Data Labeler et de l'annotation de données de qualité
Le développement de systèmes d'IA performants dépend de données annotées avec précision. Cependant, les contraintes financières strictes de l'annotation à grande échelle encouragent les entreprises à utiliser les solutions les moins chères du marché, en choisissant le taux horaire le plus faible, sans considération pour la qualité des données produites, l'éthique de la Supply Chain IA ou le volume d'heures qui sera imposé aux Data Labelers. Pourtant, tout le monde bénéficierait de considérer l'annotation des données moins comme un travail occasionnel et plus comme une profession à part entière.
La valeur des Data Labelers (ou annotateurs) qualifiés devient encore plus apparente à mesure que les professionnels de l'IA adoptent des pratiques de développement centrées sur les données qui permettent de construire des systèmes efficaces avec relativement peu d'exemples. Avec beaucoup moins d'exemples, la sélection et l'annotation appropriées de ces derniers sont absolument essentielles.
La labellisation manuelle des données est un processus coûteux et laborieux, mais il s'agit du meilleur moyen de créer des sets de données de qualité pour entraîner les modèles IA. Avec Innovatiana, nous proposons une expertise, une main d'oeuvre qualifiée et des contrôles automatisés pour traiter les besoins de données à l'échelle. Les talents sont partout. Pas les opportunités. Nous voulons contribuer, à notre niveau, à réparer cette injustice en créant des emplois à Madagascar, avec des salaires équitables et des conditions de travail éthiques.
Aïcha CAMILLE JO, CEO d'Innovatiana.