Les nombreux professeurs qui ont participé à l’atelier du 29 août dernier au Congrès de la Fédération à Athènes savent que l’établissement des seuls degrés de difficulté ou de discrimination pour chacun des items qui composent un questionnaire à choix multiples ne permet de tirer aucune conclusion sur la valeur de l’examen qui l’intègre. Il est indispensable que les hauts degrés de fiabilité (fidélité) et de validité de cet examen aient préalablement été établis à tous les niveaux (pour l’ensemble de l’examen, pour chacune des épreuves qui le composent, pour chaque type d’activités, pour chaque item, etc.) au moyen de techniques d’analyse et de calculs statistiques complexes.
Le calcul de la fiabilité d’un examen permet de répondre à la question : « A-t-on éliminé tout risque d’imprécision, voire d’erreur, dans la mesure ? » L’état de fatigue du correcteur, la longueur excessive d’un test, la mauvaise qualité sonore d’un cassettophone peuvent réduire le degré de fiabilité d’un examen.
L’établissement de la validité de l’examen permet de savoir si l’on mesure bien ce que l’on croit mesurer. Ainsi, le trop jeune âge d’un candidat, le milieu socio-culturel dans lequel il évolue, d’éventuels vices de conception dans le modèle théorique sur lequel repose son apprentissage des langues, ou plus simplement dans l’activité d’évaluation proposée elle-même, peuvent parasiter la mesure des seules compétences langagières de ce candidat.
Petit exemple : « C’est le collègue _____ je me moquais tantôt ».
Imaginons qu’un apprenant ait complété cette lacune avec le mot que.
Quelle conclusion pouvons-nous tirer de cette erreur ?
L’élève testé connaît mal le paradigme des pronoms relatifs
Il ignore la construction syntaxique du verbe se moquer ?
Il a été mal influencé par la traduction qu’il a pu faire de cette phrase en grec.
Il est incapable de distinguer les différents emplois de που en grec.
Il n’a pas compris le sens de la phrase, du mot collègue, ou du verbe se moquer.
Oserions-nous cocher une ou plusieurs de ces options sans craindre de nous tromper ? Non ! Que cette activité s’intègre dans une évaluation formative ou sommative, intermédiaire ou finale, elle ne permet donc de déterminer le degré de compétence de l’apprenant dans aucun domaine précis.
Autre question : Et si cette activité était une activité d’apprentissage ? Serions-nous en droit de la ranger sous le titre Exercices sur l’emploi des pronoms relatifs ?
Une fois le malaise existentiel créé, nous pouvons passer à la bonne nouvelle : Il ressort d’une étude docimologique (maintenant, nous savons ce que c’est !) des résultats aux examens de français PALSO de l’année passée que ces épreuves étaient de fort bonne qualité, et d’une qualité d’autant meilleure que l’étude que j’ai réalisée d’épreuves d’examen homologues et concurrentes révèlent d’importants vices de conception aux plans de la fiabilité et de la validité.
Paru dans la revue mensuelle de la Panhellenic Federation of Language School Owners (PALSO) en septembre 1995.