gallika.net

Suite de la présentation critique d’un instrument d’évaluation mis en œuvre en Grèce (en l’occurrence, les examens de français du PALSO) pour l’octroi d’une certification en langue française, mémoire de DEA – Sciences du langage, Université de Mons-Hainaut, 1998.

L’ambition de cette étude était de présenter un instrument d’évaluation qui est utilisé en Grèce pour la délivrance à l’échelle nationale de certifications de bonne connaissance de la langue française et à la conception et à l’amélioration duquel nous participons activement. Rappelons que cette présentation a justement été réalisée au fil de cette critique annuelle que nous exerçons sur l’outil et qui fait partie de l’instrument lui-même puisqu’elle en améliore, d’une session à l’autre, le degré de pertinence et de fiabilité.

La validité spéculative du modèle sociolinguistique sur lequel repose l’évaluation PALSO n’a pas été discutée dans ces pages mais la validation de sa structure et de sa cohérence a par contre été établie dans l’analyse des résultats aux tests finaux.

Plus qu’à la présentation générale de notre outil, c’est donc à une critique à la fois sociolinguistique et docimologique des objectifs, de leur mise en oeuvre et de la qualité de la mesure que se sont attachées les pages qui précèdent.

La standardisation des lieux de passation des examens, l’absence de contraintes de temps dans la mesure des compétences et l’insignifiance relative, prouvée par l’étude statistique, des éventuelles différences de qualité d’écoute lors de l’audition de la cassette audio contribuent certainement à la fiabilité de l’examen.

Dans l’ensemble des épreuves observées, la formulation des consignes assure, par sa clarté et par la simplicité de la syntaxe et du vocabulaire, une chance optimale de réussite pour tous les candidats. Mais le fait que la langue dans laquelle elles sont rédigées n’est pas la langue d’origine semble parfois interférer sur le score dans les épreuves de production écrite et orale.

Dans une bonne moitié des activités, les échantillons de discours soumis aux candidats sont authentiques. Ils constituent toujours des déclencheurs d’activité de communication et leur exploitation se fait dans le respect constant de leur fonction sociale première.

Les autres activités proposent aux candidats des phrases construites pour la circonstance. Ces phrases contiennent des formes homonymes, synonymes, et/ou qui ont en commun leur rôle opérationnel dans le processus discursif. Elles permettent donc bien de mesurer la connaissance qu’ont les candidats d’une grammaire de l’énonciation en langue française.

Les échantillons de discours sur lesquels portent les activités à réaliser par les examinés sont tous accessibles par les plus jeunes, leur nature et leur rôle sont en adéquation avec les objectifs de l’activité, leur support de présentation est toujours en accord avec leur genre, leur représentativité linguistique et sociale est manifeste et enfin ces échantillons pourraient être facilement consommés par les testés dans leur langue d’origine.

Pour ce qui concerne les activités permettant de mesurer des compétences de communication, les actions prescrites sont bien susceptibles d’être un jour accomplies par les candidats et ne devraient pas heurter leur entendement.

D’une façon générale, la nature des tâches proposées est donc bien en accord avec les objectifs déclarés. Toutes les compétences mesurées pourraient être développées par les examinés en langue d’origine. Les activités sont naturelles, vraisemblables, comme le sont aussi les alternatives et les distracteurs proposés aux candidats dans les questionnaires à choix multiples. Leur réalisation enfin est statistiquement probable dans l’avenir francophone éventuel des examinés.

Le recours au questionnaire fermé à choix multiple est une solution qui assure un haut degré de fiabilité aux épreuves de compréhension et qui permet parfois de mesurer des compétences relativement complexes.

En ce qui concerne l’épreuve de production écrite, la répartition des points par compétence dans le respect des objectifs annoncés, la sélection rigoureuse d’évaluateurs indépendants disposant d’une grille d’évaluation et la démultiplication de l’activité de production au niveau certificat sont des facteurs qui achèvent de lui assurer un haut degré de pertinence.

Il reste que la formulation en langue-cible des instructions et des consignes constitue une source d’interférence sur l’évaluation des seules compétences annoncées dans le Curriculum qui peut amoindrir les degrés de validité et de pertinence de l’évaluation.

L’organisation d’un pré-test aurait aussi permis de repérer et d’éliminer quelques items dont le dysfonctionnement est manifeste.

Outre que l’analyse métrologique des résultats confirme certaines des conclusions tirées dans la partie sociolinguistique de la présentation critique de l’outil d’évaluation, elle a aussi montré le faible degré de signifiance de la certification délivrée en cas de réussite, la validité du modèle théorique, la haute fiabilité de l’examen et la bonne cohérence interne des épreuves de compréhension :

L’établissement de la validité de construct de l’instrument semble prouver que le modèle didactique qui préside à l’organisation des objectifs d’apprentissage / d’évaluation est lui-même valide.

Une étude de fiabilité fondée sur les covariances entre items au sein de mêmes épreuves a révélé une bonne cohérence interne des épreuves de compréhension d’un document écrit aux deux niveaux. Mais dans l’épreuve de compréhension d’un document oral au niveau élémentaire, le nombre d’items et de tâches n’est probablement pas suffisant pour que l’évaluation soit significative.

Le bon coefficient de cohérence interne pour chacun des deux groupes d’activités que constituent les activités déclenchant une mise en exercice du système linguistique et celles qui font réaliser une performance communicationnelle constitue une confirmation de ce que ces tâches ont des points communs qui justifient leur regroupement au sein d’une même épreuve.

La qualité de conception de l’ensemble des items est confirmée par le petit nombre d’items qui manifestent quelque dysfonctionnement. La question de l’élimination des nombreux items jugés faciles a été posée. Il a été montré que l’élimination de ces items au moment de la notation, après la passation des examens et l’analyse statistique des résultats, serait préférable et pourrait permettre

– de corriger le déséquilibre observé dans la distribution des notes et

– de réduire ainsi l’influence négative de ce déséquilibre sur la signifiance de la certification.

L’impression générale qui se dégage de l’évaluation de l’examen est donc bonne, et d’autant meilleure que l’étude, menée hors du cadre de ce mémoire, d’épreuves d’examen homologues et concurrentes révèlent d’importants vices de conception aux plans que nous avons considérés.

De grandes questions restent pourtant provisoirement sans réponse :

La première concerne la question du dosage des parties et de l’importance relative à donner à chacune d’entre elle pour l’établissement du score total : Une table de spécifications peut-elle être établie ? Quelle doit être la nature / le niveau des intentions qui contraindront la distribution des degrés d’importance relative à accorder à chacune des compétences / performances évaluées ?

Quoique l’analyse des degrés de difficultés de chaque item n’ait rien révélé sur ce plan, les performances des candidats doivent être à un certain degré liées à leur compétence cognitive ou à leurs traits de caractère. Doit-on tenter de neutraliser ces facteurs en en mesurant l’influence ?

Seules les conclusions d’une étude expérimentale plus ample, permettant

– la comparaison de divers tests langagiers,

– la mise en relation du profil affectif et cognitif, du milieu socioculturel et du vécu linguistique et scolaire d’apprenants avec leur résultats à ces tests,

pourraient permettre de répondre à ces questions.

Lien associé :
Palso, http://www.palso.gr

Olivier Delhaye

Contributaire

Profil

Nous contacter

Petits plus …

Nous suivre

6 Conclusions

Olivier Delhaye

Réagir