En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Tooling

7 critères pour bien choisir sa plateforme de Data Labeling

Ecrit par
Aïcha
Publié le
2023-02-24
Temps de lecture
This is some text inside of a div block.
min
📘 SOMMAIRE
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.
La quantité de plateformes de Data Labeling sur le marché n’a jamais été aussi importante. Il existe une multitude de solutions technologiques pour annoter les données et produire les datasets ("Training Data") qui alimenteront vos modèles d’intelligence artificielle.

Pourtant, les Data Scientists ont parfois tendance à négliger leur setup technologique ("j'utilise LabelImg et cela marche depuis des années, pourquoi changer d’environnement ?") alors que celui-ci peut influencer de façon directe les résultats des modèles, dans une approche IA centrée sur les données.

Screenshot of V7 image labeling platform
V7 Labs, une plateforme d'annotation de données très prisée pour les cas d'usage médicaux qui nécessitent d'analyser de gros volumes de vidéos

Alors, quels sont les aspects à considérer avant de choisir sa plateforme de Data Labeling (ou Training Data Platform) ?

1. L'interface utilisateur de votre plateforme de Data Labeling

Il est important que l'interface soit intuitive et facile à utiliser par les Data Labelers. Vérifiez que la plateforme propose une interface claire et simple, qui permet de travailler rapidement et efficacement. La réactivité de l'interface est également un critère, ainsi que la possibilité de paramétrer des raccourcis clavier qui feront gagner un temps précieux à votre équipe de Data Labelers...

2. Les fonctionnalités de labellisation de données

Vérifiez que la plateforme que vous choisissez répond à vos besoins et vos exigences en termes de fonctionnalités, et notamment de types d’annotation que vous cherchez à réaliser (Image Labeling ou Video Labeling à l'aide de Bounding Box, Polygon, Keypoint, Polyline, Semantic Segmentation, …). Une autre fonctionnalité qui est souvent négligée consiste en la possibilité pour l’administrateur ou le Labeling Manager de monitorer de façon précise l’activité des Data Labelers

Il est également judicieux de considérer l'existence de fonctionnalités d'Active Learning embarquées dans la plateforme. Pour rappel, l'Active Learning est une approche d'apprentissage automatique (Machine Learning) dans laquelle un modèle d'apprentissage est entraîné de manière interactive, en sélectionnant les exemples d'apprentissage les plus informatifs pour l'amélioration de sa performance. Certaines solutions du marché comme UBIAI (solution d'annotation NLP) embarquent cette fonctionnalité, ce qui permet de présenter à un expert humain (le Data Labeler) des données pré-annotées et d'enrichir progressivement l'ensemble de données d'apprentissage... et donc d'améliorer l'efficacité du processus de traitement de vos tâches de labellisation !

Screenshot of Prodigy NLP labeling solution
Prodigy, une autre solution d'annotation NLP embarquant des fonctionnalités d'Active Learning pour les modèles de traitement du langage naturel

3. Les fonctionnalités d'import et export des données et le format des extractions

Certaines plateformes permettent d’extraire les données labellisées dans un format standard (JSON) ou spécifique (XML, TXT, YOLO, …) avec plus ou moins de réussite. Pour certaines solutions libres, des données sont parfois "perdues" durant le processus d’extraction, processus qui peut s’avérer par ailleurs très chronophage car peu optimisé. Il arrive également que le processus d'import des données soit peu intuitif (cas de CVAT, dont l'utilisation est particulièrement complexe lorsque l'on souhaite importe des données pré-annotées). Autant de points-clés à vérifier avant d’adopter un nouvel outil !

4. Le support offert par l'éditeur de la solution de Data Labeling

Il est important de s'assurer que la plateforme de Data Labeling propose un support de qualité. N'hésitez pas à vérifier que l'éditeur de la solution de labeling (SaaS ou on-premise) dispose d'une équipe dédiée au support et aux demandes des utilisateurs de la solution d'annotation IA.

Logo


Besoin d'experts en labeling V7, Labelbox ou CVAT ?
Accélérez vos tâches de labeling avec V7 (Darwin) ou d'autres solutions du marché comme Kili ou Dataloop. Collaborez avec nos Data Labelers dès maintenant.

5. Les coûts (frais de licence plateforme de Data Labeling et coûts induits par le recours au Data Labeling Outsourcing)

Enfin, n'oubliez pas de comparer les coûts des différentes plateformes de Data Labeling. Plusieurs d'entre elles sont à première vue gratuites mais certaines fonctionnalités représentent des coûts cachés pour votre entreprise. Certaines plateformes disposent d’une version d’essai gratuite jusqu’à un certain volume de données… avec des contreparties, à savoir des fonctionnalités limitées ou des conditions d'utilisation / appropriation de vos données ! Assurez-vous de choisir une plateforme qui convient à vos enjeux mais surtout à votre budget !

Enfin, certaines plateformes proposent des services de mise à disposition de Data Labelers à la demande... L'approche est louable, mais renseignez-vous sur la façon dont sont sourcés les Data Labelers mis à disposition (s'agit-il d'équipes internes, d'équipes crowdsourcées, d'un partenariat avec un spécialiste de l'externalisation IA et Data Labeling comme Innovatiana, ...). Il s'agit généralement d'une démarche de sous-traitance à l'initiative des éditeurs des plateformes de labeling, et la transparence devrait être de mise !

6. L'hébergement de vos données (Cloud storage) et la sécurité

Il est toujours tentant d'utiliser une plateforme SaaS de Labeling pour accélérer votre processus de labellisation. Mais pensez également à vos données ! Certains éditeurs proposent un environnement sécurisé et des "garanties" (certification ISO27001, rapport SOC2, ...) là où d'autres offrent des versions d'essai à première vue attrayantes, avec une contrepartie : vous perdez la propriété de vos données au delà d'un certain volume ! Pensez à bien lire les conditions de vente avant de souscrire un contrat, payant ou non, avec une plateforme de labellisation. Bien sûr, cela ne s'applique pas à tous les cas d'usage (certaines données brutes ou datasets libres ne demandent évidemment pas de porter une attention particulière à la confidentialité des données).

7. Pour finir, ne vous interdisez pas d'utiliser plusieurs plateformes de labeling IA !

Dans une approche "data-centric" de l'IA (Machine Learning & Deep Learning), si la qualité des données est primordiale pour obtenir de bons résultats, le Data Scientist devrait privilégier l'utilisation d'une multitude de plateformes en fonction des cas d'usage. On ne fait pas du NLP comme on fait du Computer Vision - il n'y a pas à ce jour de solution parfaitement ergonomique pour tous vos développements. Il vous appartient donc de définir votre propre stratégie de Data Labeling et celle-ci doit passer par une réflexion préalable sur l'outillage !

TLDR : en résumé, pour choisir sa plateforme de Data Labeling et préparer vos données Machine Learning dans de bonnes conditions, il est important de prendre en compte l’interface utilisateur, les fonctionnalités, le format des extractions, le support et les coûts ! Il faut également considérer la nature de votre cas d'usage (Computer Vision, NLP, LLM, etc.). Faites vos recherches et prenez le temps de comparer les différentes options pour trouver la plateforme qui convient le mieux à vos besoins. Nous avons testé une multitude de plateformes et pouvons vous aider, n’hésitez pas à nous contacter !