Les spécialistes de l’intelligence artificielle alertent : les modèles comme ChatGPT auraient déjà absorbé l’essentiel des savoirs humains disponibles en ligne. Que faire lorsqu’il n’y a plus assez de données neuves pour continuer à entraîner ces systèmes ? La réponse envisagée par les géants du numérique s’appelle données synthétiques… mais cette solution n’est pas sans risques.
Comment apprend une IA aujourd’hui ?
Les grandes IA, comme ChatGPT ou Gemini, apprennent en « lisant » et en analysant des milliards de phrases, d’images et de documents.
Plus il y a de données, mieux elles apprennent : une IA qui a vu des millions de textes sait mieux reconnaître les structures de la langue.
Mais la qualité compte autant que la quantité : un modèle nourri de nombreuses fausses informations deviendrait inexact.
Le problème est qu’une grande partie de ce qui est publiable et utile a déjà été collecté :
– Les livres accessibles sont numérisés depuis longtemps.
– Les sites web les plus riches – mais aussi les plus modestes, comme notre Gallika.net – ont déjà été parcourus et copiés par ces robots, qui enregistrent massivement textes et images [1].
– Beaucoup de contenus sont aussi protégés par les droits d’auteur et sont donc difficilement exploitables légalement.
Que veut dire « épuiser les connaissances humaines » ?
Cela ne veut pas dire que l’humanité n’a plus rien à apprendre !
Cela veut simplement dire que les données disponibles en ligne et exploitables pour l’IA ont atteint un plafond :
– Les nouvelles données sont rares ou répétitives.
– Les prochaines étapes demanderaient des corpus spécialisés (médecine, recherche scientifique, archives privées…) mais ils ne sont hélas pas librement accessibles.
C’est comme si l’IA avait déjà lu la bibliothèque mondiale ouverte au public. Elle peut encore progresser mais il faut désormais lui donner accès à autre chose.
Quelle solution ? Les « données synthétiques »
Face à cette limite, les entreprises comme OpenAI, Google ou Meta explorent une idée : créer de nouvelles données artificielles, générées par des IA elles-mêmes.
Exemple :
– Demander à une IA d’inventer des dialogues d’élèves en classe de langue.
– Générer des images inédites qui illustrent une situation particulière.
– Produire de fausses bases de données de phrases, corrigées par des humains, pour entraîner d’autres IA.
Ces données sont dites synthétiques car elles ne viennent pas directement d’expériences humaines ; elles sont fabriquées artificiellement. Elles sont souvent [2] produites par l’intelligence artificielle générative, c’est-à-dire par des systèmes capables de créer de nouveaux textes, images ou sons.
Les risques
Le recours massif aux données synthétiques pose plusieurs questions :
– La boucle fermée : une IA nourrie par des données créées par d’autres IA risque de tourner en rond, de répéter les mêmes erreurs et de perdre en diversité.
– Les biais amplifiés : si les IA d’origine sont biaisées (par exemple sexistes ou stéréotypées), ces biais seront reproduits, et même boostés.
– La nécessité d’une supervision : pour éviter ces dérives, il faut que des humains vérifient et corrigent les données synthétiques.
En somme, sans contrôle humain, l’IA risque de commencer à s’auto-alimenter de manière stérile.
Quelles perspectives pour l’éducation ?
Pour nous, enseignants, cette discussion a des implications concrètes :
– Comprendre les limites : savoir qu’une IA ne peut pas tout inventer de façon fiable, car elle est dépendante de ce qu’on lui donne à apprendre.
– Rôle du professeur : nous restons indispensables pour valider, vérifier et encadrer l’usage pédagogique des productions de l’IA.
– Opportunités : les données synthétiques peuvent être utiles en classe, par exemple pour créer des exercices ou des scénarios adaptés, mais à condition que l’enseignant garde la main.
L’idée selon laquelle nous aurions déjà épuisé la somme des connaissances humaines disponibles pour entraîner les IA doit être comprise comme un avertissement : les données accessibles en ligne ont leurs limites.
La solution envisagée, les données synthétiques, ouvre une nouvelle ère : celle où l’IA fabrique elle-même son propre carburant. Mais sans supervision humaine, ce carburant risque de devenir de plus en plus pauvre.
Pour les enseignants, cela confirme une chose : l’IA peut être un formidable outil, mais elle ne remplace ni l’esprit critique, ni l’expérience humaine.
__________
En résumé
Les experts le disent : les modèles d’intelligence artificielle ont déjà « lu » presque tout ce que nous avons produit et mis en ligne. Livres, articles, images… les données neuves se raréfient. La solution proposée ? Les données synthétiques, fabriquées par des IA elles-mêmes puis supervisées par des humains. Mais attention : sans contrôle, l’IA risque de tourner en rond et de reproduire ses propres erreurs. Pour les enseignants, comprendre cette limite est essentiel : l’IA est un outil puissant, mais elle ne remplace jamais l’esprit critique.
— Résumé généré par l’IA.