La qualité des données en Intelligence Artificielle : une approche par la théorie de l'information
L'expression "Garbage In, Garbage Out" est souvent citée en Intelligence Artificielle (IA), mais peu comprennent ses fondements théoriques.
La course à la performance en intelligence artificielle se concentre souvent sur l'architecture des modèles, la puissance de calcul ou les techniques d'optimisation.
Pourtant, un aspect crucial reste sous-estimé : la qualité des données d'entraînement. Imaginez construire une maison sur des fondations instables : peu importe la sophistication de l'architecture, la structure sera compromise.
De même, un modèle d'IA entraîné sur des données bruitées ou mal labellisées reproduira inévitablement ces défauts. Cette réalité n'est pas qu'empirique ; elle découle directement des principes fondamentaux de la théorie de l'information. Comprendre ces principes permet de saisir pourquoi l'investissement dans la qualité des données est souvent plus important que celui dans la complexité des modèles.
Les fondements théoriques
L'Entropie de Shannon : la mesure de l'information
Claude Shannon a révolutionné notre compréhension de l'information en proposant une mesure quantitative. L'entropie de Shannon est donnée par
H = -∑ p(x) log₂(p(x))
Où :
- H est l'entropie (mesurée en bits)
- p(x) est la probabilité d'occurrence d'un événement x
- ∑ représente la somme sur tous les événements possibles
Cette formule nous dit quelque chose de fondamental : l'information est liée à l'imprévisibilité. Un événement certain (p=1) n'apporte aucune information nouvelle, tandis qu'un événement rare apporte beaucoup d'information.
Application aux données d'entraînement
Dans un dataset d'entraînement, l'information totale peut être décomposée ainsi :
H_totale = H_utile + H_bruit
Où :
- H_utile représente l'information pertinente pour notre tâche
- H_bruit représente les imperfections, erreurs et artefacts
Cette décomposition a une conséquence cruciale : un modèle d'IA ne pouvant pas distinguer intrinsèquement l'information utile du bruit, il apprendra les deux.
Au risque donc de reproduire le bruit en sortie du modèle.
Le principe de conservation de l'information
La limite fondamentale
Un théorème fondamental de la théorie de l'information établit qu'un système ne peut pas créer de l'information ; il peut seulement la transformer. Pour un modèle d'IA, cela signifie :
Qualité_sortie ≤ Qualité_entrée
Cette inégalité est stricte : aucune architecture, aussi sophistiquée soit-elle, ne peut dépasser cette limite.
Cas pratique : l'upscaling d'images
Prenons l'exemple concret de l'upscaling de photo, où nous voulons augmenter la résolution d'une image :
La chaîne de qualité
Pour une image haute résolution (HR) générée à partir d'une image basse résolution (LR) :
PSNR_sortie ≤ PSNR_entrée - 10*log₁₀(facteur_upscaling²)
Où :
- PSNR (Peak Signal-to-Noise Ratio) mesure la qualité de l'image
- facteur_upscaling est le rapport entre les résolutions (ex : 2 pour doubler)
Impact des données d'entraînement
Considérons deux scénarios d'entraînement :
1. Dataset Haute Qualité
- Images HR : Photos 4K non compressées
- PSNR moyen : 45dB
- Résultat possible : ~35dB après upscaling x2
2. Dataset Médiocre
- Images HR : Photos compressées JPEG
- PSNR moyen : 30dB
- Résultat maximum : ~20dB après upscaling x2
La différence de 15dB dans le résultat final est directement liée à la qualité des données d'entraînement.
Le PSNR en dB est une mesure logarithmique qui compare le signal maximum possible avec le bruit (l'erreur).
Plus le nombre de dB est élevé, meilleure est la qualité :
Le PSNR (Peak Signal-to-Noise Ratio) est défini comme :
PSNR = 10 * log₁₀(MAX²/MSE)
Où :
- MAX est la valeur maximale possible du pixel (255 pour 8 bits)
- MSE est l'erreur quadratique moyenne
Pour l'upscaling, quand on augmente la résolution d'un facteur n, MSE tend à augmenter, ce qui diminue effectivement le PSNR.
La qualité du résultat est donc très sensible au niveau de bruit.
Ordre de grandeur des PSNR en dB pour les images
- Une image JPEG de haute qualité : ~40-45 dB
- Une compression JPEG moyenne : ~30-35 dB
- Une image très compressée : ~20-25 dB
Le dB étant une échelle logarithmique :
- +3 dB = qualité 2x meilleure
- +10 dB = qualité 10x meilleure
- +20 dB = qualité 100x meilleure
Donc quand on dit "~35dB après upscaling x2", cela signifie que :
- L'image résultante a une bonne qualité
- Les différences avec l'image "parfaite" sont difficiles à voir
- C'est typique d'un bon algorithme d'upscaling
L'effet cascade : le danger des données générées par IA
Quand on utilise des images générées par IA pour entraîner d'autres modèles, la dégradation suit une progression géométrique :
Qualité_génération_n = Qualité_originale * (1 - τ)ⁿ
Où :
- τ est le taux de dégradation par génération
- n est le nombre de générations
Cette formule explique pourquoi utiliser des images générées par IA pour entraîner d'autres modèles mène à une dégradation rapide de la qualité.
L'importance du labelling
La qualité des labels est aussi cruciale que celle des données elles-mêmes. Pour un modèle supervisé :
Précision_maximale = min(Qualité_données, Précision_labels)
Cette formule simple montre que même avec des données parfaites, des labels imprécis limitent strictement les performances possibles.
Recommandations pratiques
1. Préparation du dataset
Plus haut, notre démonstration simpliste illustre l’importance cruciale de la qualité de la data utilisée pour les entraînements. Nous vous invitons à consulter cet article pour en savoir plus sur les modalités de préparation d'un dataset de qualité pour vos modèles d'intelligence artificielle.
Nous ne pouvons pas développer dans cet article mais le lecteur averti remarquera que la définition du "bruit" pose des questions philosophiques. Comment définir le bruit ?
2. Réflexion : la nature subjective du bruit
La définition même du "bruit" dans les données soulève des questions philosophiques profondes. Ce qui est considéré comme du bruit pour une application peut être une information cruciale pour une autre.
Prenons l'exemple d'une photo :
- Pour un modèle de reconnaissance faciale, les variations d'éclairage sont du "bruit"
- Pour un modèle d'analyse d'éclairage, ces mêmes variations sont l'information principale
Cette subjectivité du bruit nous rappelle que la "qualité" des données est intrinsèquement liée à notre objectif. Comme le chat de Schrödinger, le bruit existe dans une superposition : il est à la fois information et perturbation, jusqu'à ce que nous définissions notre contexte d'observation.
Cette dualité souligne l'importance d'une définition claire et contextuelle de la "qualité" dans nos projets d'IA, remettant en question l'idée d'une qualité absolue des données.
3. Métriques de qualité
Pour chaque type de données, définir des seuils minimaux, par exemple :
Images
PSNR > 40dB, SSIM >0.95
Labels
Précision > 98%
Cohérence
Tests croisés > 95%
Le seuil de 40dB n'est pas arbitraire. En pratique :
- 40dB : Différences pratiquement imperceptibles
- 35-40dB : Très bonne qualité, différences visibles uniquement par des experts
- 30-35dB : Qualité acceptable pour usage général
- <30dB : Dégradation visible
SSIM (Structural Similarity Index)
Le SSIM est complémentaire au PSNR :
seuils_SSIM = { "Excellent": ">0.95", "Good": "0.90-0.95", "Acceptable": "0.85-0.90", "Problem": "<0.85" }
Le SSIM est plus proche de la perception humaine car il considère la structure de l'image.
Tests de cohérence
Les tests croisés >95% impliquent :
- Validation croisée k-fold
- Tests de cohérence interne
- Vérification des outliers
- Analyse de distribution
Conclusion
La théorie de l'information nous fournit un cadre rigoureux qui démontre que la qualité des données n'est pas une option mais une limite mathématique stricte. Un modèle d'IA, aussi sophistiqué soit-il, ne peut pas dépasser la qualité de ses données d'entraînement.
Cette compréhension doit guider nos investissements : plutôt que de chercher uniquement des architectures plus complexes, nous devons prioritairement assurer la qualité de nos données d'entraînement !
Sources
Entropie de Shannon : https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Illustration : https://replicate.com/philz1337x/clarity-upscaler
Sources académiques et techniques
- Shannon, C.E. (1948). "A Mathematical Theory of Communication". Bell System Technical Journal.
- Wang, Z. et al. (2004). "Image Quality Assessment: From Error Visibility to Structural Similarity". IEEE Transactions on Image Processing.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). "Deep Learning". MIT Press.
- Zhang, K. et al. (2020). "Deep Learning for Image Super-Resolution: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence.
- Dodge, S., & Karam, L. (2016). "Understanding how image quality affects deep neural networks". International Conference on Quality of Multimedia Experience (QoMEX).