3 fausses idées reçues sur le Data Labeling
💡 Dans le monde de l'intelligence artificielle, le Data Labeling ("labellisation de données" ou "étiquetage de données" en français) est un domaine émergent qui n’est pas encore connu de tous.
Les tâches de Data Labeling consistent à attribuer des étiquettes à diverses données structurées et non structurées, afin de créer une "couche sémantique" soit un ensemble d'informations que les algorithmes de Machine Learning ou Deep Learning peuvent comprendre. Dans une approche de l'intelligence artificielle centrée sur les données - ce qui est la tendance du marché - le Data Labeling est un processus indispensable !
Dans cet article, nous avons listé 3 fausses idées reçues sur les activités de Data Labeling et leur mise en oeuvre pour construire les produits IA.
1. L'annotation de données est rapide et facile à automatiser
Si vous avez déjà essayé de labelliser des données en interne, vous pouvez sûrement réfuter cette phrase. Plus l’IA recevra de données, plus elle sera précise. Il est donc important de fournir des sets de données massives et de qualité. L’annotation de données prend plusieurs heures et est un travail fastidieux, ce qui peut vite devenir frustrant pour des personnes qui n’en ont jamais fait auparavant, et handicapant si ces personnes doivent également effectuer d’autres missions. Confier ces tâches à un stagiaire Data Scientist n'est probablement pas une bonne idée...
Enfin, même si des progrès ont été faits en matière de labellisation automatique, avec des plateformes toujours plus performante, cela ne dispense pas d'une vérification et qualification par un Data Labeler professionnel, qui contrairement à la machine, dispose d'une expérience fonctionnelle et métier en lien avec les données à labelliser.
2. Annoter des données de façon précise n'est pas indispensable
Lorsqu'il s'agit de développer des modèles d'intelligence artificielle performants, des données annotées de qualité en grande quantité sont indispensables. Les annotations fournissent des informations précises sur les caractéristiques et les labels des données, ce qui permet aux modèles d'apprentissage automatique de généraliser et de prendre des décisions plus précises.
Cependant, si les données sont annotées de manière inexacte ou de mauvaise qualité, cela se traduit par des erreurs et des prédictions incorrectes de la part de l'IA. Ces erreurs peuvent nécessiter un temps considérable pour les corriger manuellement, car même si elles peuvent être rares dans certains cas, leur correction individuelle demande beaucoup d'efforts. C'est pourquoi il est essentiel de mettre en avant la qualité des annotations, afin de minimiser les erreurs et d'optimiser l'efficacité du processus d'apprentissage automatique.
3. Toutes les entreprises d'externalisation Data Labeling exploitent leurs salariés
Certaines entreprises de labellisation de données exploitent les travailleurs en adoptant des pratiques qui vont à l'encontre des droits du travail. Certaines de ces entreprises, dans le but de réduire les coûts, optent pour des modèles de travail non équitable tels que le crowdsourcing. Cela signifie qu'elles font appel à des travailleurs occasionnels et souvent mal rémunérés, qui effectuent des tâches de labellisation de données de manière fragmentée et ponctuelle, avec des attentes dé-corrélées de la réalité de ces personnes.
De plus, ces entreprises peuvent également imposer des délais serrés et une pression excessive sur les travailleurs pour produire rapidement des annotations, ce qui entraîne des conditions de travail stressantes et précaires. Dans l'ensemble, l'exploitation des travailleurs par les entreprises de labellisation de données est une réalité préoccupante qui nécessite une attention particulière pour garantir le respect des droits et de la dignité des travailleurs.
Chez Innovatiana, nous accordons une importance primordiale à la rémunération équitable de nos employés. Nous leur offrons des emplois stables et nous rejetons le recours au crowdsourcing. Notre préoccupation éthique en tant qu'entreprise guide nos choix.
Nous espérons que cet article a pu changer vos préjugés ! Si vous êtes CTO, Data Scientist, développeur ou juste intéressé par le Data Labeling, n’hésitez pas à prendre rendez-vous avec nous !