La "Vérité Terrain" en Data Science : un pilier pour des modèles IA fiables !
Définir le concept de "Vérité Terrain"
La vérité terrain, en Intelligence Artificielle, est un concept très reconnu et respecté dans les sphères de la Data Science. Ce concept fait référence aux données étiquetées et considérées comme parfaitement correctes, précises et fiables. C'est le socle sur lequel les algorithmes d'IA apprennent, et sont capables de prendre des décisions semblables à celles que pourrait prendre un être humain. La vérité terrain est la référence, l'objectif ultime, la source de données unique et fiable guidant la précision de chaque analyse et élément exploitable par un modèle.
Le "terrain" dans vérité terrain désigne les caractéristiques de la réalité, la vérité concrète que les machines et les analystes de données s'efforcent de comprendre et de prédire. C'est l'état réel des choses contre lequel toutes les sorties d'un système, d'un modèle, sont mesurées.
Quel est le rôle de la "Vérité Terrain" dans l'apprentissage machine et l'analyse de données ?
Dans l'apprentissage machine et l'analyse de données, la vérité terrain agit comme une boussole sur le terrain, dirigeant les modèles vers fiabilité, précision et exhaustivité. Sans vérité terrain, les modèles d'IA peuvent s'égarer, menant à des applications erronées et des décisions inappropriées ou biaisée.
La vérité terrain n'est pas statique ; elle évolue avec le temps, reflétant les changements de motifs et de vérités. Sa nature dynamique souligne son importance, poussant les Data Scientists et Data Engineers à raffiner et valider continuellement leurs données d'entraînement pour correspondre aux vérités actuelles.
Établir la "Vérité Terrain" grâce à la collecte et l'annotation de données
Collecter des données et y associer un label, une étiquette connue, peut être une tâche intimidante au premier abord, en particulier dans des domaines comme la reconnaissance d'images, où l'identification d'objets, de personnes ou de motifs sur les images peut être subjective. Cependant, plusieurs méthodes de constitution d'ensemble de données "vérité terrain" peuvent être employées pour ancrer vos données dans la réalité, c'est-à-dire dans la "vérité" :
Étiquetage par des experts et consensus
Engager des experts en annotation de données pour réaliser les tâches fastidieuses d'étiquetage de données peut représenter une étape de vérité initiale. Cependant, il est important de reconnaître que la subjectivité existe dans les tâches d'annotation manuelle (c'est-à-dire, réalisées par des humains).
Pour atténuer cela, une approche de consensus peut être mise en œuvre, assurant la validité des données étiquetées par le biais d'accords majoritaires. Vous n'avez pas compris ? On vous explique : le "consensus", en Data Labeling ou étiquetage de données, se réfère au processus où plusieurs personnes évaluent indépendamment un même ensemble de données pour attribuer des étiquettes ou des classifications. Le consensus est atteint lorsque la majorité de ces évaluateurs sont d'accord sur une étiquette spécifique pour chaque donnée. Ce processus est déterminant pour assurer la qualité et la fiabilité des données utilisées dans l'apprentissage automatique et d'autres applications de l'intelligence artificielle.
Dit autrement, les données à étiqueter sont distribuées à plusieurs annotateurs. Chaque annotateur évalue les données et leur attribue des étiquettes de manière indépendante, sans être influencé par les opinions des autres. Une fois l'étiquetage terminé, les étiquettes attribuées par différents annotateurs sont comparées. Le consensus est généralement défini comme l'étiquette (ou les étiquettes) sur laquelle la majorité des annotateurs s'accorde. Dans certains cas, un seuil spécifique est fixé (par exemple, un accord de 80%).
Dans les processus d'annotation complexes, le consensus est généralement mesuré à l'aide d'accords inter-annotateurs, souvent désignés par le terme anglais "Inter-Annotator Agreement" ou "Inter-Rater Reliability". Ce terme fait référence à la mesure dans laquelle différents annotateurs (ou évaluateurs, ou encore Data Labelers) sont d'accord dans leurs évaluations ou leurs classifications des mêmes données. Ce concept est essentiel dans de nombreux domaines où des jugements subjectifs doivent être standardisés, comme c'est le cas dans des domaines où les ensembles de données peuvent être extrêmement ambigus, comme la chirurgie ou la psychologie.
Intégrer un jugement humain dans le cycle d'annotation
Intégrer le jugement humain dans des boucles consécutives du processus d'étiquetage des données peut raffiner et converger les étiquettes de la vérité terrain. Les plateformes de crowdsourcing offrent un vaste bassin de potentiels étiqueteurs, aidant dans le processus de collecte de données. Toutefois, il est important de noter que le crowdsourcing n'est pas la seule méthode pour réaliser un étiquetage de données de qualité. Des alternatives existent, comme l'emploi d'experts spécifiquement formés, qui peuvent apporter une compréhension plus profonde et une expertise spécifique sur des sujets complexes.
En outre, les techniques d'apprentissage semi-supervisé et les approches d'apprentissage par renforcement peuvent être utilisées pour réduire la dépendance aux grands ensembles de données étiquetées manuellement, en permettant aux modèles d'apprendre et de s'améliorer progressivement à partir de petits ensembles d'exemples annotés de haute qualité. Ces méthodes, combinées ou utilisées indépendamment, peuvent contribuer à augmenter l'efficacité et la précision de l'étiquetage des données, en conduisant vers des résultats plus fiables pour l'apprentissage des modèles d'intelligence artificielle. Chez Innovatiana, nous pensons qu'il est préférable d'employer des experts pour annoter des sets de données moins volumineux, avec un niveau de qualité nettement supérieur !
Automatisation et contrôles de cohérence renforcés
Tirer parti de l'automatisation dans le processus d'étiquetage, via des modèles d'intelligence artificielle spécialisés, peut considérablement accélérer les tâches fastidieuses d'annotation. Cette approche offre une méthode cohérente et permet de réduire le temps et les ressources nécessaires pour le traitement manuel des données. Cette automatisation, lorsqu'elle est bien mise en œuvre, permet non seulement de traiter un volume massif de données à une vitesse impressionnante, mais aussi d'assurer une uniformité qui peut être difficile à atteindre avec l'étiquetage humain.
Cependant, l'automatisation a ses limites et nécessite une validation continue par des intervenants humains, en particulier pour les données d'images, afin de maintenir la précision et la pertinence des données de la vérité terrain. Les erreurs d'automatisation, telles que les biais dans les données ou les interprétations erronées dues aux limites des algorithmes actuels, doivent être constamment surveillées et corrigées. De plus, l'intégration d'une rétroaction humaine régulière permet d'ajuster et d'améliorer les modèles d'IA, en les rendant plus robustes et adaptés aux variations subtiles et complexes inhérentes aux données du monde réel.
En combinant les capacités de l'automatisation et de l'expertise humaine, on peut parvenir à un équilibre optimal entre efficacité, précision et fiabilité dans le processus d'étiquetage des données, essentiel pour la création de bases de données riches et variées, indispensables à l'entraînement de modèles d'intelligence artificielle performants.
Quelles sont les applications réelles de la Vérité Terrain en IA, dans la Tech et les Startups notamment
L'utilisation de datasets de qualité et notamment de datasets "Ground Truth" résonne dans tout le secteur des services technologiques et les écosystèmes Tech, stimulant l'innovation et favorisant la croissance. Voici quelques cas d'usage que nous avons recensé dans nos différentes missions, qui ont tous été facilités par le recours à des données volumineuses de qualité :
Amélioration de la précision des modèles prédictifs dans la Finance
En utilisant des données "Ground Truth" pour la conception et le développement de modèles prédictifs dans la finance, il est possible de prévoir les tendances, les demandes et les risques avec une précision sans précédent. Ce niveau de prévoyance est indispensable pour prendre des décisions proactives et basées sur les données (plutôt que sur des hypothèses).
Facilitation de la prise de décision grâce aux données "Ground Truth"
La vérité terrain permet aux entreprises de prendre des décisions basées sur les données qui résonnent avec les besoins de leurs marchés. Elle fournit l'assurance nécessaire pour prendre des risques calculés et tracer des voies stratégiques pour la croissance.
Traitement automatique du langage naturel (TALN)
Les datasets de vérité terrain permettent d'entraîner des modèles d'IA à comprendre, interpréter et générer du langage humain. Ils sont utilisés dans la traduction automatique, l'analyse de sentiments, la reconnaissance vocale, et la génération de texte.
Détection et prévention de la fraude grâce aux datasets "Ground Truth"
Dans le secteur financier, des modèles entraînés avec des datasets précis peuvent identifier des comportements frauduleux ou anormaux, comme dans le cas de transactions de carte de crédit suspectes.
Agriculture de précision
L'utilisation de datasets vérité terrain aide à développer des solutions d'IA pour l'analyse de données satellitaires ou de drones afin d'optimiser les pratiques agricoles, comme la détection des zones nécessitant irrigation ou traitements particuliers.
Quels sont les défis associés à l'obtention d'ensembles de données "Vérité Terrain" ?
Malgré son importance irréfutable, l'obtention et la maintenance des données de la vérité terrain sont parsemées d'obstacles qui exigent une gestion habile. Cela représentent autant de défis pour les Data Scientists et Spécialistes IA. Ces défis sont généralement liés aux aspects suivants :
Qualité et précision des données
Maintenir la qualité des données est une lutte perpétuelle, avec des inexactitudes et de la désinformation qui peut s'infiltrer par divers canaux d'information. Assurer la nature intacte de vos données de vérité terrain exige une vigilance constante et la mise en œuvre de contrôles de qualité robustes.
Subjectivité et biais dans l'étiquetage
La perception humaine empêche une objectivité parfaite, et cela teinte souvent les processus d'étiquetage des données, introduisant des biais qui peuvent fausser les représentations de la vérité terrain. Atténuer ces biais nécessite une approche judicieuse et réfléchie des affectations d'étiquettes et des processus de validation.
Cohérence dans le temps et l'espace
La vérité terrain n'est pas seulement sujette à des variations temporelles, mais aussi à des disparités spatiales. Harmoniser les étiquettes de la vérité terrain à travers les points géographiques et les limites temporelles est une entreprise méticuleuse qui nécessite une planification et une exécution approfondies.
Quelques stratégies à adopter pour renforcer votre Vérité Terrain
Pour construire une vérité terrain résiliente, il faut employer un arsenal de tactiques et de technologies. Voici quelques stratégies à considérer :
Techniques d'étiquetage de données rigoureuses
La mise en œuvre de méthodes d'étiquetage de données strictes, telles que l'étiquetage "double pass" et les processus d'arbitrage, peut renforcer la fiabilité de vos données de la vérité terrain, garantissant qu'elles reflètent avec précision la réalité qu'elles visent à représenter.
Exploitation de la puissance du crowdsourcing ou de la validation par des experts
Mobiliser l'intelligence collective des experts peut offrir des perspectives diverses, enrichissant l'ampleur et la profondeur de vos données de vérité terrain. La validation par des experts sert de point de contrôle important, affirmant la crédibilité de vos données étiquetées.
Utilisation d'outils permettant d'industrialiser l'annotation
Les plateformes d'annotation de données peuvent accélérer le processus d'étiquetage, en établissant des règles et des mécanismes de pilotage des équipes d'annotation, de suivi de leurs activités et de leur comportement (par exemple : est-ce que le temps passé par un annotateur sur l'annotation d'une image est cohérent avec l'objectif. Peut-être ce temps est-il trop court ou au contraire trop long, ce qui est un indicateur quant à la qualité et la cohérence des données). Ces outils, lorsqu'ils sont complétés par une surveillance humaine, peuvent constituer une alliance d'équipe redoutable dans la constitution de la vérité terrain.
Alors que nous nous aventurons dans un âge caractérisé principalement par l'omniprésence et la complexité des données, notre capacité à discerner et à définir la vérité terrain marquera la distinction entre le progrès et l'obsolescence. L'avenir de l'IA se situe à la convergence de la vérité terrain et de l'innovation.
Focus sur la qualité des données pour constituer un dataset "Vérité Terrain" : quelle est la meilleure approche ?
C'est une question que l'on nous pose souvent chez Innovatiana... s'il n'y a pas de réponse unique, il faut reconnaître qu'il y a beaucoup de préjugés dans la communauté des spécialistes IA, quant à la meilleure méthode permettant de produire des données fiables. Ces préjugés sont notamment liés à l'utilisation excessive de plateformes de crowdsourcing (telles qu'Amazon Mechanical Turk) au cours de la dernière décennie - et la qualité des données (souvent) réduite qui en résulte.
Préjugé n°1 : une approche par consensus est indispensable pour fiabiliser mes données
Pour rappel, un processus d'annotation par consensus implique la mobilisation d'une multitude d'annotateurs pour revoir le même objet dans un set de données. Par exemple, il peut s'agir de demander à 5 annotateurs de revoir et annoter le même bulletin de salaire. Ensuite, un mécanisme de revue qualité va déterminer un taux de fiabilité en fonction des réponses (par exemple : pour 1 bulletin de salaire annoté, si j'ai 4 résultats identiques et 1 résultat en erreur, je peux estimer que la fiabilité des données est bonne pour l'objet traité).
Cette approche a bien sûr un coût (il faut dupliquer les efforts) à la fois financier mais surtout éthique. Le crowdsourcing, très populaire ces dernières années, a tenté de justifier le recours à des prestataires freelance situés dans des pays à faibles revenus, très faiblement payés et travaillant de façon ponctuelle, sans réelle expertise et sans aucune stabilité professionnelle.
Nous pensons qu'il s'agit d'une erreur, et si l'approche par consensus a des vertus (on pense notamment aux cas d'usage médicaux, qui demandent une précision extrême et n'accordent pas de droit à l'erreur), des approches plus simples, moins coûteuses, et plus respectueuses des professionnels de la donnée que sont les annotateurs, existent.
A titre d'exemple, une approche "double pass", consistant en la revue intégrale des labels par "couches" successives (1/ Data Labeler, 2/ Spécialiste Qualité, 3/ Test sur échantillon), propose des résultat aussi fiables qu'une approche par consensus, et surtout bien plus économique.
Préjugé n°2 : un set de données de qualité est forcément fiable à 100% et ne contient AUCUNE erreur
C'est bien sûr complètement faux ! De nos précédentes expériences, nous retenons les leçons suivantes :
1. La rigueur, et non la perfection, est la base d’une stratégie de qualité des données solide.
Les modèles d'intelligence artificielle sont très résistants aux erreurs dans les jeux de données : une quête de perfection est par ailleurs incompatible avec la nature humaine, irréalisable et inutile pour les modèles.
2. La vérité terrain est obtenue grâce au travail manuel d’annotateurs humains... et l'erreur est humaine !
Les humains font inévitablement des erreurs (fautes de frappe, erreurs d’inattention, etc.). Il est impossible de garantir un jeu de données 100% fiable.
3. Votre modèle IA n’a pas besoin de perfection.
Par exemple, les modèles de Deep Learning sont excellents pour ignorer les erreurs / le bruit pendant le processus d’entraînement. Cela est vrai tant qu’ils disposent d’une très grande majorité de bons exemples, et d’une minorité d’erreurs (ce que nous garantissons dans nos prestations).
Nous en avons déduit quelques grands principes de contrôle qualité que nous utilisons dans le cadre de nos missions. Nous encourageons nos clients à appliquer ces mêmes principes lorsqu’ils contrôlent les jeux de données que nous annotons pour répondre à leurs besoins :
Principe n°1 : Passer en revue un sous-ensemble aléatoire des données pour s’assurer qu’il répond à un standard de qualité acceptable (95% minimum).
Principe n°2 : Explorer la répartition des erreurs trouvées lors de revues aléatoires. Identifier des patterns et des erreurs récurrentes.
Principe n°3 : Lorsque des erreurs sont identifiées, rechercher des actifs similaires (par exemple : fichier texte de même longueur, image de taille équivalente) au sein d'un jeu de données.
💡 Vous souhaitez en savoir plus ? Découvrez notre article et nos conseils pour construire un dataset de qualité !
En conclusion
La quête de la vérité terrain n'est pas simplement un exercice académique mais une entreprise vitale en Data Science. Elle sous-tend l'intégrité de nos analyses, la validité de nos modèles, et le succès de nos innovations technologiques. En investissant dans les processus et les technologies qui améliorent la précision et la fiabilité des sources de données de la vérité terrain, nous investissons essentiellement dans l'avenir de la prise de décision éclairée et de la prévoyance stratégique (et pas uniquement dans l'avenir de l'intelligence artificielle).
Les défis sont significatifs et le travail exigeant, mais les récompenses - une perspicacité accrue, des résultats améliorés, et une compréhension plus profonde de notre monde de plus en plus complexe - valent sans équivoque les efforts. Alors que l'intelligence artificielle progresse, évangilisons l'importance de la vérité terrain et du recours à des annotateurs humains pour préparer les données servant de fondations aux modèles !