En cliquant sur "Accepter ", vous acceptez que des cookies soient stockés sur votre appareil afin d'améliorer la navigation sur le site, d'analyser son utilisation et de contribuer à nos efforts de marketing. Consultez notre politique de confidentialité pour plus d'informations.
Knowledge

La qualité des données en Intelligence Artificielle : une approche par la théorie de l'information

Ecrit par
Nanobaly
Publié le
2024-10-26
Temps de lecture
This is some text inside of a div block.
min
📘 SOMMAIRE
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

L'expression "Garbage In, Garbage Out" est souvent citée en Intelligence Artificielle (IA), mais peu comprennent ses fondements théoriques.

La course à la performance en intelligence artificielle se concentre souvent sur l'architecture des modèles, la puissance de calcul ou les techniques d'optimisation.


Pourtant, un aspect crucial reste sous-estimé : la qualité des données d'entraînement. Imaginez construire une maison sur des fondations instables : peu importe la sophistication de l'architecture, la structure sera compromise.


De même, un modèle d'IA entraîné sur des données bruitées ou mal labellisées reproduira inévitablement ces défauts. Cette réalité n'est pas qu'empirique ; elle découle directement des principes fondamentaux de la théorie de l'information. Comprendre ces principes permet de saisir pourquoi l'investissement dans la qualité des données est souvent plus important que celui dans la complexité des modèles.

Les fondements théoriques

L'Entropie de Shannon : la mesure de l'information

Claude Shannon a révolutionné notre compréhension de l'information en proposant une mesure quantitative. L'entropie de Shannon est donnée par

H = -∑ p(x) log₂(p(x))

Où :

  • H est l'entropie (mesurée en bits)
  • p(x) est la probabilité d'occurrence d'un événement x
  • représente la somme sur tous les événements possibles

Cette formule nous dit quelque chose de fondamental : l'information est liée à l'imprévisibilité. Un événement certain (p=1) n'apporte aucune information nouvelle, tandis qu'un événement rare apporte beaucoup d'information.

Application aux données d'entraînement

Dans un dataset d'entraînement, l'information totale peut être décomposée ainsi :

H_totale = H_utile + H_bruit

Où :

  • H_utile représente l'information pertinente pour notre tâche
  • H_bruit représente les imperfections, erreurs et artefacts

Cette décomposition a une conséquence cruciale : un modèle d'IA ne pouvant pas distinguer intrinsèquement l'information utile du bruit, il apprendra les deux.

Au risque donc de reproduire le bruit en sortie du modèle.

Le principe de conservation de l'information

La limite fondamentale

Un théorème fondamental de la théorie de l'information établit qu'un système ne peut pas créer de l'information ; il peut seulement la transformer. Pour un modèle d'IA, cela signifie :

Qualité_sortie ≤ Qualité_entrée

Cette inégalité est stricte : aucune architecture, aussi sophistiquée soit-elle, ne peut dépasser cette limite.

Cas pratique : l'upscaling d'images

Prenons l'exemple concret de l'upscaling de photo, où nous voulons augmenter la résolution d'une image :

Image upscale, une image upscale, dont la résolution est augmentée, et l'image d'origine pour comparer
(Vous pouvez trouver une liste d'outils utilisés pour l'upscaling d'une photo ici)

La chaîne de qualité

Pour une image haute résolution (HR) générée à partir d'une image basse résolution (LR) :

PSNR_sortie ≤ PSNR_entrée - 10*log₁₀(facteur_upscaling²)

Où :

  • PSNR (Peak Signal-to-Noise Ratio) mesure la qualité de l'image
  • facteur_upscaling est le rapport entre les résolutions (ex : 2 pour doubler)

Impact des données d'entraînement

Considérons deux scénarios d'entraînement :

1. Dataset Haute Qualité

- Images HR : Photos 4K non compressées

- PSNR moyen : 45dB

- Résultat possible : ~35dB après upscaling x2



2. Dataset Médiocre

- Images HR : Photos compressées JPEG

- PSNR moyen : 30dB

- Résultat maximum : ~20dB après upscaling x2

La différence de 15dB dans le résultat final est directement liée à la qualité des données d'entraînement.

Le PSNR en dB est une mesure logarithmique qui compare le signal maximum possible avec le bruit (l'erreur).
Plus le nombre de dB est élevé, meilleure est la qualité :

Le PSNR (Peak Signal-to-Noise Ratio) est défini comme :

PSNR = 10 * log₁₀(MAX²/MSE)

Où :

  • MAX est la valeur maximale possible du pixel (255 pour 8 bits)
  • MSE est l'erreur quadratique moyenne

Pour l'upscaling, quand on augmente la résolution d'un facteur n, MSE tend à augmenter, ce qui diminue effectivement le PSNR.
La qualité du résultat est donc très sensible au niveau de bruit.

Ordre de grandeur des PSNR en dB pour les images

  • Une image JPEG de haute qualité : ~40-45 dB
  • Une compression JPEG moyenne : ~30-35 dB
  • Une image très compressée : ~20-25 dB

Le dB étant une échelle logarithmique :

  • +3 dB = qualité 2x meilleure
  • +10 dB = qualité 10x meilleure
  • +20 dB = qualité 100x meilleure

Donc quand on dit "~35dB après upscaling x2", cela signifie que :

  1. L'image résultante a une bonne qualité
  2. Les différences avec l'image "parfaite" sont difficiles à voir
  3. C'est typique d'un bon algorithme d'upscaling

L'effet cascade : le danger des données générées par IA

Quand on utilise des images générées par IA pour entraîner d'autres modèles, la dégradation suit une progression géométrique :

Qualité_génération_n = Qualité_originale * (1 - τ)ⁿ

Où :

  • τ est le taux de dégradation par génération
  • n est le nombre de générations

Cette formule explique pourquoi utiliser des images générées par IA pour entraîner d'autres modèles mène à une dégradation rapide de la qualité.

L'importance du labelling

La qualité des labels est aussi cruciale que celle des données elles-mêmes. Pour un modèle supervisé :

Précision_maximale = min(Qualité_données, Précision_labels)

Cette formule simple montre que même avec des données parfaites, des labels imprécis limitent strictement les performances possibles.

Recommandations pratiques

1. Préparation du dataset

Plus haut, notre démonstration simpliste illustre l’importance cruciale de la qualité de la data utilisée pour les entraînements. Nous vous invitons à consulter cet article pour en savoir plus sur les modalités de préparation d'un dataset de qualité pour vos modèles d'intelligence artificielle.

Nous ne pouvons pas développer dans cet article mais le lecteur averti remarquera que la définition du "bruit" pose des questions philosophiques. Comment définir le bruit ?

2. Réflexion : la nature subjective du bruit

La définition même du "bruit" dans les données soulève des questions philosophiques profondes. Ce qui est considéré comme du bruit pour une application peut être une information cruciale pour une autre.

Prenons l'exemple d'une photo :

  • Pour un modèle de reconnaissance faciale, les variations d'éclairage sont du "bruit"
  • Pour un modèle d'analyse d'éclairage, ces mêmes variations sont l'information principale

Cette subjectivité du bruit nous rappelle que la "qualité" des données est intrinsèquement liée à notre objectif. Comme le chat de Schrödinger, le bruit existe dans une superposition : il est à la fois information et perturbation, jusqu'à ce que nous définissions notre contexte d'observation.

Cette dualité souligne l'importance d'une définition claire et contextuelle de la "qualité" dans nos projets d'IA, remettant en question l'idée d'une qualité absolue des données.

3. Métriques de qualité

Pour chaque type de données, définir des seuils minimaux, par exemple :

Images

PSNR > 40dB, SSIM >0.95

Labels

Précision > 98%

Cohérence

Tests croisés > 95%


Le seuil de 40dB n'est pas arbitraire. En pratique :

  • 40dB : Différences pratiquement imperceptibles
  • 35-40dB : Très bonne qualité, différences visibles uniquement par des experts
  • 30-35dB : Qualité acceptable pour usage général
  • <30dB : Dégradation visible

SSIM (Structural Similarity Index)

Le SSIM est complémentaire au PSNR :

seuils_SSIM = {    "Excellent": ">0.95",    "Good": "0.90-0.95",    "Acceptable": "0.85-0.90",    "Problem": "<0.85"    }

Le SSIM est plus proche de la perception humaine car il considère la structure de l'image.

Tests de cohérence

Les tests croisés >95% impliquent :

  1. Validation croisée k-fold
  2. Tests de cohérence interne
  3. Vérification des outliers
  4. Analyse de distribution

Conclusion

La théorie de l'information nous fournit un cadre rigoureux qui démontre que la qualité des données n'est pas une option mais une limite mathématique stricte. Un modèle d'IA, aussi sophistiqué soit-il, ne peut pas dépasser la qualité de ses données d'entraînement.

Cette compréhension doit guider nos investissements : plutôt que de chercher uniquement des architectures plus complexes, nous devons prioritairement assurer la qualité de nos données d'entraînement !

Sources

Entropie de Shannon : https://fr.wikipedia.org/wiki/Entropie_de_Shannon
Illustration :
https://replicate.com/philz1337x/clarity-upscaler

Sources académiques et techniques

  1. Shannon, C.E. (1948). "A Mathematical Theory of Communication". Bell System Technical Journal.
  2. Wang, Z. et al. (2004). "Image Quality Assessment: From Error Visibility to Structural Similarity". IEEE Transactions on Image Processing.
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). "Deep Learning". MIT Press.
  4. Zhang, K. et al. (2020). "Deep Learning for Image Super-Resolution: A Survey". IEEE Transactions on Pattern Analysis and Machine Intelligence.
  5. Dodge, S., & Karam, L. (2016). "Understanding how image quality affects deep neural networks". International Conference on Quality of Multimedia Experience (QoMEX).