Dans toute formation, on évalue : avant, pendant, après. Et l’on évalue pour différentes raisons : pronostiquer, diagnostiquer, réguler, certifier.
En pratique, deux formes dominent : l’évaluation intermédiaire formative et l’évaluation finale sommative. La première sert à ajuster. La seconde sert à trancher. Entre les deux, il y a parfois un monde.
Une question posée en classe – « Réexplique-nous pourquoi il faut un infinitif » – relève de l’évaluation formative. Un examen final, une certification comme le PALSO-LAAS, relèvent de l’évaluation sommative.
Jusqu’ici, rien de controversé. Mais il faut aller plus loin.
Évaluer, c’est mesurer
On l’oublie trop souvent : évaluer, c’est mesurer. C’est comparer une production à une attente. Comparer un bonzourr à un bonjour. Et décider – explicitement ou non – à quel point l’un vaut l’autre.
Or toute mesure pose deux questions simples, mais redoutables : mesurer quoi ? mesurer comment ?
Mesurer quoi ?
On répond vite : « les objectifs ». Encore faut-il savoir de quels objectifs on parle.
Certains sont généraux, formulés dans une langue accessible à tous : « permettre à de jeunes adultes de communiquer dans la vie professionnelle ».
D’autres sont spécifiques, techniques, réservés aux spécialistes : « mobiliser des moyens linguistiques pour réaliser des actes de parole dans des situations données ».
Plus un objectif est précis, plus il devient mesurable. Plus il est mesurable, plus il devient… discutable. Car ce que l’on choisit de mesurer n’est jamais neutre.
Mesurer comment ?
Deux exigences structurent toute évaluation sérieuse : la fiabilité et la validité. La fiabilité, c’est la précision de la mesure. La validité, c’est sa pertinence. Autrement dit : mesure-t-on de manière stable ? mesure-t-on bien ce que l’on prétend mesurer ?
Dans la réalité, ces deux exigences sont constamment fragilisées. Imaginons une candidate. Son résultat dépend :
– de sa préparation, bien sûr,
– mais aussi de son état émotionnel,
– du comportement du surveillant,
– de la fatigue,
– du correcteur,
– du format de l’épreuve.
Autant de variables qui n’ont rien à voir avec la compétence visée.
La fiabilité est déjà entamée. La validité l’est tout autant.
Un test censé mesurer la compréhension de « décryptage de l’ADN » peut, en réalité, mesurer :
– une proximité linguistique avec le grec,
– un capital culturel,
– un environnement familial,
– un hasard de parcours.
On croit mesurer une compétence. On mesure un mélange.
Une illusion tenace
L’évaluation donne souvent une impression de rigueur. : des notes, des moyennes, des classements. Des chiffres qui rassurent.
Mais cette rigueur est parfois une illusion. Un test mal construit peut être très précis… dans l’erreur.
Peut-on vérifier la qualité d’un test ?
Oui, à condition de sortir du contenu et d’analyser la structure.
Par exemple : dans un QCM, les résultats aux items pairs et impairs devraient être comparables. Sinon, certains items sont défectueux.
Autre indicateur : si différentes épreuves mesurent des compétences distinctes tout en restant corrélées à une moyenne générale, alors le test tient – au moins partiellement – debout.
Mais ces analyses sont rarement pratiquées par les enseignants.
Conclusion
La docimologie est une discipline exigeante, à la croisée des sciences de la mesure (psychométrie, métrologie) et des sciences du langage et de l’apprentissage.
Elle oblige à poser des questions que l’on préfère souvent éviter :
– Que mesure-t-on réellement ?
– Avec quel degré d’erreur ?
– Et avec quelles conséquences pour les apprenants ?
Former des enseignants sans les former à la docimologie revient à leur confier un instrument de mesure… sans leur apprendre à s’en servir.
Et à faire comme si mesurer allait de soi.