La docimologie est la science qui traite des examens.
Au cours d’une formation, des évaluations peuvent être mise en œuvre à divers moments : avant la formation, pendant la formation ou à la fin de la formation.
Les fonctions de cette évaluation peuvent-être différentes : pronostique, diagnostique, formative, sommative.
Les deux combinaisons moment/fonction les plus courantes sont l’évaluation intermédiaire formative et l’évaluation finale sommative.
L’évaluation intermédiaire et formative permet de réajuster les stratégies d’enseignement/apprentissage en cours de formation. Les interros hebdomadaires, la question « Réexplique-nous pourquoi il faut mettre un infinitif ? » sont des exemples de techniques d’évaluation intermédiaire et formative.
L’évaluation finale sommative permet, quant à elle, de se faire une idée de l’ensemble des acquis d’un individu au terme de la formation. Un examen de fin d’année, l’examen du PALSO-LAAS sont des exemples de techniques d’évaluation finale et sommative.
Très schématiquement, évaluer, c’est mesurer. C’est comparer quelque chose à quelque chose d’attendu. C’est, par exemple, comparer le bonzourr de l’élève au bonjour attendu. C’est établir la mesure dans laquelle ce bonzourr ressemble au bonjour attendu.
Dans le cadre de l’enseignement/apprentissage du FLE, nous devons avoir conscience de ce que nous devrions évaluer/mesurer et des modalités de notre évaluation/mesure. Évaluer, c’est mesurer. Oui, mais mesurer quoi ? Mesurer comment ?
Mesurer quoi ?
Évaluer, c’est mesurer à quel degré les objectifs d’apprentissage ont été atteints.
Il existe des objectifs d’apprentissage plus généraux, d’autres plus spécifiques.
Une façon de les distinguer est de considérer comme généraux les objectifs exprimés en termes politiques, en des termes qui peuvent être compris par tous, et comme spécifiques les objectifs exprimés en termes qui ne peuvent être compris que par des spécialistes, que par les profs de FLE dans le cas qui nous intéresse.
Un exemple d’objectif général pourrait être : satisfaction des besoins langagiers que pourraient éprouver de jeunes adultes au moment de leur passage à la vie active, que pourraient éprouver de jeunes adultes désireux de développer des contacts socioprofessionnels en langue étrangère.
Un exemple d’objectif spécifique serait plutôt : mise en œuvre de moyens linguistiques simples pour la réalisation d’une liste exhaustive d’actes de paroles, dans des situations de communication socioprofessionnelles que les apprenants sont capables d’affronter quotidiennement dans leur langue d’origine.
Un objectif d’apprentissage/évaluation très spécifique peut devenir opérationnel : cela signifie que sa bonne réalisation peut être constatée, mesurée de façon objective, précise, sûre.
Mesurer comment ?
Mesurer comment ? En veillant avant tout à ce qu’il n’y ait pas d’erreur dans la mesure. Une mesure sans erreur est dite fiable. La fiabilité d’une mesure repose essentiellement sur le fait qu’elle est précise et certaine.
En contrôlant aussi si l’on mesure bien ce que l’on voulait mesurer… si l’on n’a pas mesuré autre chose en même temps. L’assurance d’avoir mesuré un seul trait, à l’exclusion de tout autre, confère à la mesure sa validité.
Le degré de fiabilité d’une évaluation, c’est donc la mesure dans laquelle la valeur attribuée à la performance d’un élève est proche de la vraie valeur de cette performance, c’est la mesure dans laquelle un score mesuré est proche du score vrai.
Beaucoup de facteurs peuvent menacer la fiabilité de la mesure, la fiabilité de l’évaluation. Imaginons que la pauvre petite Anoula passe un examen. Ses résultats ne dépendront pas seulement de sa bonne préparation : Le regard insistant d’un surveillant peut l’avoir perturbée (émotivité) ; elle peut avoir appris par cœur les bonnes réponses, sans vraiment les comprendre (stratégie) ; le correcteur vient peut-être de se disputer avec sa femme (subjectivité de la notation) ; l’examen était peut-être aussi trop long (fatigue) ou trop facile (bonnes réponses, mais qui ne signifient finalement rien).
Beaucoup d’autres facteurs peuvent menacer la validité de la mesure, la validité de l’évaluation. Imaginons un test linguistique au cours duquel on veut contrôler sir les apprenants ont entendu et compris l’expression « décryptage de l’ADN ».
Les candidats qui ont correctement répondu ont peut-être été aidés ou ont peut-être été pénalisés par d’autres caractéristiques, par d’autres compétences dont nous ne désirions pas mesurer la réalité : par le fait d’être grec (le terme décryptage vient en partie du grec), par le fait de n’avoir que 10 ans (à 10 ans, on ne sait probablement pas encore ce qu’est l’ADN), par le fait d’avoir un père médecin (on en parle à table, à la maison), par le fait d’avoir, par hasard, vu la veille un documentaire sur la question
Donc, une évaluation de qualité doit être fiable et valide.
Estimation de la fiabilité et de la validité d’un examen
Il existe des techniques, qui n’entretiennent à priori absolument aucun rapport avec l’objet d’apprentissage et qui permettent d’établir les degrés de fiabilité et de validité de la mesure.
Si, par exemple, un test est censé mesurer la compétence de compréhension des procédures à suivre pour s’inscrire sur le site d’une université francophone... Si ce test se présente sous la forme d’un questionnaire à choix multiple composé de 40 items. La somme des résultats de l’ensemble de la population des évalués aux items impairs devrait être presque égale à la somme des résultats de l’ensemble de la population de ces mêmes évalués aux items pairs. Si ces deux sommes sont fort différentes, cela signifie qu’un ou que plusieurs items étaient défectueux, qu’ils ne mesuraient pas avec la précision voulue (trop facile, mal formulé ?) ou avec la certitude voulue (seulement deux propositions de réponses ? je réponds au hasard et j’ai de la chance). La fiabilité du test est menacée. Cela peut signifier aussi que certains items mesuraient autre chose que ce qu’ils étaient censés mesurer, ils constituent alors une menace à la validité du test.
Pour mesurer le degré de la validité dite de construit d’un test, on peut comparer les moyennes intermédiaires des résultats de chaque évalué – aux classiques épreuves de compréhension orale, de compréhension écrite, de production écrite, etc. – avec la moyenne générale obtenue. Si les moyennes intermédiaires sont le plus souvent nettement différentes entre elles et que, par contre, elles restent toutes en étroite corrélation avec la moyenne générale, on peut considérer que le test est valide au plan de son construit, au plan du modèle didactique sur lequel sa structure repose. On peut considérer que, d’une part, chacune de ses parties évalue bien quelque chose de différent, et que de l’autre, chacune de ses parties appartient pourtant bien au tout mesuré.
-----
La docimologie, science des examens, est donc pluridisciplinaire. Elle se réfère à la fois aux sciences qui ont, entre autres objets d’études, la qualité de la mesure (métrologie, psychométrie) et à celles qui ont trait à l’objet d’apprentissage (ici, la linguistique, la didactique, la pragmatique, etc.).
Tout enseignant devrait absolument avoir suivi une formation en docimologie, ne fût-ce que pour pouvoir concevoir des tests pertinents, valides, fiables.