Knowledge

La qualité des données en Intelligence Artificielle : une approche par la théorie de l'information

Ecrit par

Nanobaly

Publié le

2024-10-26

Temps de lecture

min

L'expression "Garbage In, Garbage Out" est souvent citée en Intelligence Artificielle (IA), mais peu comprennent ses fondements théoriques.

‍

La course à la performance en intelligence artificielle se concentre souvent sur l'architecture des modèles, la puissance de calcul ou les techniques d'optimisation.

‍
Pourtant, un aspect crucial reste sous-estimé : la qualité des données d'entraînement. Imaginez construire une maison sur des fondations instables : peu importe la sophistication de l'architecture, la structure sera compromise.

‍
De même, un modèle d'IA entraîné sur des données bruitées ou mal labellisées reproduira inévitablement ces défauts. Cette réalité n'est pas qu'empirique ; elle découle directement des principes fondamentaux de la théorie de l'information. Comprendre ces principes permet de saisir pourquoi l'investissement dans la qualité des données est souvent plus important que celui dans la complexité des modèles.

‍

Les fondements théoriques

‍

L'Entropie de Shannon : la mesure de l'information

Claude Shannon a révolutionné notre compréhension de l'information en proposant une mesure quantitative. L'entropie de Shannon est donnée par

‍

H = -∑ p(x) log₂(p(x))

‍

Où :

H est l'entropie (mesurée en bits)
p(x) est la probabilité d'occurrence d'un événement x
∑ représente la somme sur tous les événements possibles

‍

Cette formule nous dit quelque chose de fondamental : l'information est liée à l'imprévisibilité. Un événement certain (p=1) n'apporte aucune information nouvelle, tandis qu'un événement rare apporte beaucoup d'information.

‍

Application aux données d'entraînement

Dans un dataset d'entraînement, l'information totale peut être décomposée ainsi :

‍

H_totale = H_utile + H_bruit

‍

Où :

H_utile représente l'information pertinente pour notre tâche
H_bruit représente les imperfections, erreurs et artefacts

‍

Cette décomposition a une conséquence cruciale : un modèle d'IA ne pouvant pas distinguer intrinsèquement l'information utile du bruit, il apprendra les deux.

Au risque donc de reproduire le bruit en sortie du modèle.

‍

Le principe de conservation de l'information

‍

La limite fondamentale

Un théorème fondamental de la théorie de l'information établit qu'un système ne peut pas créer de l'information ; il peut seulement la transformer. Pour un modèle d'IA, cela signifie :

‍

Qualité_sortie ≤ Qualité_entrée

‍

Cette inégalité est stricte : aucune architecture, aussi sophistiquée soit-elle, ne peut dépasser cette limite.

‍

Cas pratique : l'upscaling d'images

‍

Prenons l'exemple concret de l'upscaling de photo, où nous voulons augmenter la résolution d'une image :

‍

Image upscale, une image upscale, dont la résolution est augmentée, et l'image d'origine pour comparer — (Vous pouvez trouver une liste d'outils utilisés pour l'upscaling d'une photo **ici**)

La chaîne de qualité

Pour une image haute résolution (HR) générée à partir d'une image basse résolution (LR) :

‍

PSNR_sortie ≤ PSNR_entrée - 10*log₁₀(facteur_upscaling²)

‍

Où :

PSNR (Peak Signal-to-Noise Ratio) mesure la qualité de l'image
facteur_upscaling est le rapport entre les résolutions (ex : 2 pour doubler)

‍

Impact des données d'entraînement

‍

Considérons deux scénarios d'entraînement :

1. Dataset Haute Qualité

- Images HR : Photos 4K non compressées

- PSNR moyen : 45dB

- Résultat possible : ~35dB après upscaling x2‍

‍2. Dataset Médiocre

- Images HR : Photos compressées JPEG

- PSNR moyen : 30dB

- Résultat maximum : ~20dB après upscaling x2

La différence de 15dB dans le résultat final est directement liée à la qualité des données d'entraînement.

‍

Le PSNR en dB est une mesure logarithmique qui compare le signal maximum possible avec le bruit (l'erreur).
Plus le nombre de dB est élevé, meilleure est la qualité :

‍

Le PSNR (Peak Signal-to-Noise Ratio) est défini comme :

‍

PSNR = 10 * log₁₀(MAX²/MSE)

‍

Où :

MAX est la valeur maximale possible du pixel (255 pour 8 bits)
MSE est l'erreur quadratique moyenne

‍

Pour l'upscaling, quand on augmente la résolution d'un facteur n, MSE tend à augmenter, ce qui diminue effectivement le PSNR.
La qualité du résultat est donc très sensible au niveau de bruit.

‍

Ordre de grandeur des PSNR en dB pour les images

Une image JPEG de haute qualité : ~40-45 dB
Une compression JPEG moyenne : ~30-35 dB
Une image très compressée : ~20-25 dB

‍

Le dB étant une échelle logarithmique :

+3 dB = qualité 2x meilleure
+10 dB = qualité 10x meilleure
+20 dB = qualité 100x meilleure

‍

Donc quand on dit "~35dB après upscaling x2", cela signifie que :

L'image résultante a une bonne qualité
Les différences avec l'image "parfaite" sont difficiles à voir
C'est typique d'un bon algorithme d'upscaling

‍

L'effet cascade : le danger des données générées par IA

‍

Quand on utilise des images générées par IA pour entraîner d'autres modèles, la dégradation suit une progression géométrique :

‍

Qualité_génération_n = Qualité_originale * (1 - τ)ⁿ

‍

Où :

τ est le taux de dégradation par génération
n est le nombre de générations

‍

Cette formule explique pourquoi utiliser des images générées par IA pour entraîner d'autres modèles mène à une dégradation rapide de la qualité.

‍

L'importance du labelling

‍

La qualité des labels est aussi cruciale que celle des données elles-mêmes. Pour un modèle supervisé :

‍

Précision_maximale = min(Qualité_données, Précision_labels)

‍

Cette formule simple montre que même avec des données parfaites, des labels imprécis limitent strictement les performances possibles.

‍

Recommandations pratiques

‍

1. Préparation du dataset

Plus haut, notre démonstration simpliste illustre l’importance cruciale de la qualité de la data utilisée pour les entraînements. Nous vous invitons à consulter cet article pour en savoir plus sur les modalités de préparation d'un dataset de qualité pour vos modèles d'intelligence artificielle.

Nous ne pouvons pas développer dans cet article mais le lecteur averti remarquera que la définition du "bruit" pose des questions philosophiques. Comment définir le bruit ?

‍

2. Réflexion : la nature subjective du bruit

La définition même du "bruit" dans les données soulève des questions philosophiques profondes. Ce qui est considéré comme du bruit pour une application peut être une information cruciale pour une autre.

‍

Prenons l'exemple d'une photo :

Pour un modèle de reconnaissance faciale, les variations d'éclairage sont du "bruit"
Pour un modèle d'analyse d'éclairage, ces mêmes variations sont l'information principale

‍

Cette subjectivité du bruit nous rappelle que la "qualité" des données est intrinsèquement liée à notre objectif. Comme le chat de Schrödinger, le bruit existe dans une superposition : il est à la fois information et perturbation, jusqu'à ce que nous définissions notre contexte d'observation.

‍

Cette dualité souligne l'importance d'une définition claire et contextuelle de la "qualité" dans nos projets d'IA, remettant en question l'idée d'une qualité absolue des données.

‍

3. Métriques de qualité

Pour chaque type de données, définir des seuils minimaux, par exemple :

‍

Images

‍

PSNR > 40dB, SSIM >0.95

‍

Labels

‍

Précision > 98%

‍

Cohérence

‍

Tests croisés > 95%

‍

Le seuil de 40dB n'est pas arbitraire. En pratique :

40dB : Différences pratiquement imperceptibles
35-40dB : Très bonne qualité, différences visibles uniquement par des experts
30-35dB : Qualité acceptable pour usage général
<30dB : Dégradation visible

‍

SSIM (Structural Similarity Index)

Le SSIM est complémentaire au PSNR :

‍

seuils_SSIM = { "Excellent": ">0.95", "Good": "0.90-0.95", "Acceptable": "0.85-0.90", "Problem": "<0.85" }

‍

Le SSIM est plus proche de la perception humaine car il considère la structure de l'image.

‍

Tests de cohérence

Les tests croisés >95% impliquent :

Validation croisée k-fold
Tests de cohérence interne
Vérification des outliers
Analyse de distribution

‍

Conclusion

‍

La théorie de l'information nous fournit un cadre rigoureux qui démontre que la qualité des données n'est pas une option mais une limite mathématique stricte. Un modèle d'IA, aussi sophistiqué soit-il, ne peut pas dépasser la qualité de ses données d'entraînement.

‍

Cette compréhension doit guider nos investissements : plutôt que de chercher uniquement des architectures plus complexes, nous devons prioritairement assurer la qualité de nos données d'entraînement !

‍

Sources

Entropie de Shannon : 🔗 https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Illustration : 🔗 https://replicate.com/philz1337x/clarity-upscaler

‍

Sources académiques et techniques

Shannon, C.E. (1948). "A Mathematical Theory of Communication". Bell System Technical Journal.
Wang, Z. et al. (2004). "Image Quality Assessment: From Error Visibility to Structural Similarity". IEEE Transactions on Image Processing.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). "Deep Learning". MIT Press.
Zhang, K. et al. (2020). "Deep Learning for Image Super-Resolution: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence.
Dodge, S., & Karam, L. (2016). "Understanding how image quality affects deep neural networks". International Conference on Quality of Multimedia Experience (QoMEX).

Vous pourriez aimer :

Données de mauvaise qualité : un obstacle majeur en Machine Learning

Où trouver des datasets de qualité pour entraîner vos modèles d'IA ?

Un bon dataset booste la performance des modèles d’IA. Découvrez où les trouver et comment les évaluer avant de les utiliser pour vos IA

Data Generator : les secrets des experts pour créer des datasets de qualité

60 % des données IA seront bientôt synthétiques. Découvrez comment générer et valider des datasets pour optimiser vos modèles !