4.3 Premier bilan

4.3  Premier bilan - Image d'illustration

Suite de la présentation critique d’un instrument d’évaluation mis en œuvre en Grèce (en l’occurrence, les examens Examens Examens de français du PALSO) pour l’octroi d’une certification en langue française, mémoire de DEA – Sciences du langage, Université de Mons-Hainaut, 1998.

Le moment est venu d’organiser les observations qui précèdent en les rangeant sous 6 rubriques :

- les conditions de passation,

- la langue des instructions et des consignes,

- la qualité des échantillons de discours soumis,

- la nature des tâches proposées,

- le type d’outil d’évaluation adopté et

- le dosage des parties.

4.3.1 Les conditions de passation

L’uniformité des lieux de passation des examens Examens Examens , l’absence (à un degré raisonnable) de contraintes de temps et l’insignifiance relative des éventuelles différences de qualité d’écoute lors de l’audition d’une cassette audio contribuent certainement à la fiabilité des épreuves. Il n’a pas été possible de vérifier dans quelle mesure le report des réponses sur un formulaire permettant une lecture optique peut influencer les résultats finaux.

4.3.2 La langue des instructions et des consignes

Dans l’ensemble des épreuves observées, la formulation des consignes assure par la simplicité de la syntaxe, du vocabulaire et par sa clarté une chance optimale de réussite pour tous les candidats mais le fait que la langue dans laquelle elles sont rédigées n’est pas la langue-source semble parfois interférer sur le score dans les épreuves de production écrite et orale.

Dans la première partie de l’épreuve écrite des examens Examens Examens , les consignes encadrées sont exprimées dans une langue si élémentaire et ressemblent tellement aux consignes proposées dans les épreuves des sessions précédentes qu’on peut considérer comme négligeable la possibilité de voir un candidat pénalisé par le fait que ces consignes sont rédigées en français. Il n’en est par contre pas de même pour les questions posées sous les reproductions de documents sociaux proposées aux candidats : Outre que la formulation même de ces questions qui invitent en général le candidat à trouver des indices linguistiques dans ces documents, permet parfois une résolution en aveugle de l’exercice (Je découvre l’expression nouveau chef dans la question , je dois choisir selon je ne sais trop quel critère entre 3 documents, je choisis le seul dans lequel je repère cette même expression nouveau chef, et j’ai gagné le point !), la bonne résolution des exercices peut à nouveau être soumise au degré de compréhension de certains termes de la question ou des énoncés à compléter (pousser dans le sens de grandir ).

Un exemple plus impressionnant de stratégies interférentes peut être trouvé dans la deuxième épreuve, celle de production écrite, qui consiste à rédiger un court document sur base des consignes proposées, cette fois, en langue étrangère et en langue d’origine. Que le lecteur compare les textes de la consigne qui suit et de la production qui pourrait y répondre.

Consigne :

Votre amie Nadine vous a proposé de passer quelques jours du mois de juillet chez ses parents en Bretagne. Malheureusement, pendant tout le mois de juillet, vous de-vrez rester chez vous pour aider vos parents qui ont justement beaucoup de travail au début de l’été. Vous lui écrivez une lettre pour la remercier, bien sûr, mais surtout pour lui demander de remettre votre séjour au mois d’août. Signez du nom de Dimitris ou de Dimitra.

Production :

Thessalonique, le 27 mai 1998.

Ma chère Nadine,

Tu m’avais proposé de passer quelques jours du mois de juillet chez tes parents en Bretagne. Malheureusement, pendant tout le mois de juillet, je devrai rester chez moi pour aider mes parents qui ont justement beaucoup de travail au début de l’été. Je t’écris cette lettre pour te remercier, bien sûr, mais surtout pour te demander de re-mettre mon séjour au mois d’août.

J’attends ta réponse avec impatience. Bisous.

Dimitris.

N’est-il pas amusant de constater que moyennant quelques transformations relativement simples et d’ordre exclusivement morphosyntaxique, l’apprenant peut, en recopiant « intelligemment » la consigne, produire une lettre des plus acceptables ?

Ce candidat aurait-il pu remettre une copie de cette qualité si la consigne avait été formulée dans sa langue d’origine ?

Les consignes des activités d’évaluation de l’épreuve des examens destinée à mesurer les compétences de compréhension du discours oral des candidats sont, elles aussi, toutes exposées en français dans le livret qui leur est distribué.

Le risque que les consignes ne soient pas comprises par le candidat est certes tempéré par le fait qu’elles sont également lues à voix haute sur la cassette auditionnée, ce qui peut effectivement aussi contribuer à une certaine évaluation de sa compétence de compréhension d’un discours oral. Il n’empêche que l’objectif de l’épreuve n’est pas de comprendre ni d’appliquer des consignes exprimées dans la langue-cible mais bien d’être capable, après audition d’un fragment de discours oral, d’identifier le genre de ce discours, l’acte de parole accompli, de donner des informations sur le locuteur ou sur les allocutaires, de déterminer la nature de leur relation, de donner des indications sur les référents de l’acte de communication.

La formulation en langue-cible de la consigne constitue donc une source d’interférence sur l’évaluation des seules compétences de compréhension annoncée dans le Curriculum qui peut amoindrir les degrés de validité et de pertinence de l’évaluation.

De ce point de vue, le support-papier remis aux candidats lors de la passation de l’épreuve qui vise à mesurer leurs compétences de production orale n’est pas non plus parfait : Les quelques titres et légendes qui jouxtent les documents iconiques proposés aux candidats et qui devraient constituer de simples déclencheurs de parole sont en français et c’est bien dommage parce que les sens et les charges culturelles de certains de ces mots peuvent être particulièrement différents dans la langue d’origine et échapper ainsi aux candidats . Ces derniers, pénalisés par une méconnaissance du sens étranger et/ou de la charge culturelle des mots repérés, pourraient ne pas pouvoir soutenir aussi facilement que d’autres une discussion avec des évaluateurs justement étrangers et donc insensibles à ces particularités.

La formulation bilingue ou en langue-cible de consignes d’activités d’évaluation est à la source d’interférences qui peuvent nuire à la bonne évaluation des seules compétences à mesurer. En outre, elle oblige l’enseignant à faire apprendre par les candidats les notions permettant une description du fonctionnement de la langue, la métalangue inhérente et des genres de discours qu’ils utiliseront et rencontreront rarement au moment de communiquer en langue étrangère dans la vie active.

Enfin, la description ou le commentaire en langue-cible de situations de communication sur lesquelles le candidat ne peut poser qu’un regard autochtone n’est pas naturelle et pourrait en fausser l’exacte appréciation.

Ces nombreux risques d’interférence dans la mesure de compétences de communication précises et le gaspillage de temps que peut entraîner le décodage d’une consigne d’activité - d’évaluation tout au moins - formulée en langue-cible devraient amener les concepteurs des examens à rediscuter avec les commanditaires de ces épreuves, de l’opportunité qu’il y a à exprimer les consignes en langue étrangère.

Il serait à tout point de vue préférable qu’elles le soient en langue d’origine.

4.3.3 La qualité des échantillons de discours proposés

Dans 19 activités, les échantillons de discours soumis aux candidats sont authentiques . Ils constituent toujours des déclencheurs d’activité de communication et leur exploitation se fait dans le respect constant de leur fonction sociale première.

Les 15 autres activités proposent aux candidats des phrases construites pour la circonstance . Ces phrases contiennent des formes homonymes, synonymes, et/ou qui ont en commun leur rôle opérationnel dans le processus discursif. Elles permettent donc bien de mesurer la connaissance qu’ont les candidats d’une grammaire de l’énonciation en langue française.

On peut regretter que la situation de communication qui a pu susciter la production et contraindre les modalités de réalisation de ces fragments de discours ne soit pas restituée. Cette question sera traitée dans le chapitre suivant justement consacré à la nature des tâches proposées.

Le rapport entre les activités mesurant des compétences communicationnelles et celles qui mesurent des compétences linguistique est le même aux deux niveaux. Toutefois, en accord avec le texte du Curriculum pour les examens, un discours plus spécialisé fait son entrée dans certaines activités (annonces immobilières, offres et demandes d’emploi) au niveau certificat.

Il faut noter enfin que des réalisations discursives soumises aux candidats peuvent sembler constituer des transcriptions de discours oral . Ce sont en fait des phrases très courtes, qui pourraient malgré tout être produites par écrit (dans un discours rapporté, par exemple). L’intention des concepteurs est ici de réduire au minimum le nombre d’éléments qui pourraient compliquer la tâche évaluée et d’assurer ainsi le plus haut degré de validité possible à l’activité. L’éventuelle oralité de ces phrases en démontre en tout cas la naturalité qui a justement systématiquement fait défaut aux phrases minimales fabriquées par les méthodes d’enseignement des langues antérieures.

Il reste que les échantillons de discours sur lesquels portent les activités à réaliser par les examinés sont tous accessibles par les plus jeunes, que leur nature et rôle est en adéquation avec les objectifs de l’activité, que leur support de présentation est toujours en accord avec leur genre, que leur représentativité linguistique et sociale est manifeste et enfin que ces échantillons seraient certainement accessibles en langue d’origine, ce qui garantit une plus grande validité à la mesure.

4.3.4 La nature des tâches proposées

Pour ce qui concerne les 19 activités permettant de mesurer des compétences de communication, les actions prescrites sont bien susceptibles d’être un jour accomplies par les candidats et ne devraient pas heurter leur entendement.

On a déjà regretté que la dimension socio-culturelle des contextes d’apparition des productions proposées dans les activités portant sur la connaissance qu’ont les candidats du système de la langue ne soit pas restituée. Il n’en reste pas moins que ces activités sont bien celles auxquelles peut se livrer un locuteur au moment de s’exprimer, quand il hésite entre

- des formes homonymes en langue d’origine ou en langue étrangère,

- des formes remplissant une même fonction opérationnelle (actualisation, quantification, localisation spatio-temporelle, modalisation, etc.) dans le processus discursif.

Les formes homonymes en langue d’origine sont deux fois plus nombreuses dans les examens du certificat mais leur importance relative dans la pondération des examens aux deux niveau reste modeste. En effet, si les évaluateurs privilégient trop systématiquement des réalisations dont le fonctionnement morphosyntaxique particulièrement différent de celui de réalisations homologues en langue d’origine déroute l’apprenant, ils proposeront un échantillon peu représentatif de la langue-cible. Si par contre, ils ne tiennent pas compte des rapport qu’entretiennent les réalisations proposées avec les productions homologues en langue-source, les résultats de l’épreuve seront moins discriminants et donc moins pertinents.

Aux deux niveaux, il est clair que le parti pris par les concepteurs est de proposer

- des activités portant sur la mise en exercice du système linguistique et répondant aux objectifs de maîtrise et de transfert dans la trilogie de V. et G. de LANDSHEERE (1984) d’une part,

- des activités mettant en oeuvre des compétences de communication et visant des objectifs de transfert et « d’expression », de l’autre.

La différence entre les degrés de difficulté de résolution des consignes aux deux niveau se manifeste dans la nature des informations à repérer et dans le degré d’exploitation de ces informations.

En effet, l’éventail des natures d’informations à repérer simultanément au sein d’une même activité est en général plus large au niveau certificat. De plus, leur ex-ploitation nécessite la mise en oeuvre de la compétence d’inférence quand il s’agit par exemple d’estimer le degré d’implication d’une personne ou les incidences des informations relevées dans le document.

L’apparition, au hasard de certaines activités, de tâches dont l’accomplissement semble plus difficile pourrait inciter les concepteurs ou les évaluateurs de l’évaluation à intégrer ces tâches dans une typologie des habiletés langagières de compréhension (repérer, regrouper, comparer, inférer, apprécier) et de production (réutiliser, affirmer, interroger, interagir) pour mieux en organiser la pondération. Toutefois, une tentative d’intégration des activités des deux examens dans une typologie de ce type proposée par LUSSIER (1992) a échoué : la plupart des activités et des items mobilisent plusieurs habiletés, et ce, à des degrés différents. Aussi les concepteurs ont-ils choisi de garantir une représentativité et une pondération équilibrée des habiletés langagières par l’organisation d’un grand nombre d’activités/situations déclenchées par le plus large éventail possible de documents sociaux.

D’une façon générale, la nature des tâches proposées est donc bien en accord avec les objectifs déclarés. Toutes les compétences mesurées pourraient être développées par les examinés en langue d’origine. Les activités sont naturelles, vraisemblables, comme le sont aussi les alternatives et les distracteurs proposés aux candidats dans tous les questionnaires à choix multiples. Leur réalisation enfin est statistiquement probable dans l’avenir francophone éventuel des examinés.

4.3.5 Le choix du type de l’outil d’évaluation

Posons d’abord la question du bien fondé de l’adoption du questionnaire à choix multiples comme outil d’évaluation dans les épreuves de compréhension d’un discours écrit ou oral. Si le questionnaire fermé à choix multiples semble devoir constituer la meilleure garantie de la fiabilité de l’épreuve d’évaluation, il n’en reste pas moins que la qualité de sa mise en oeuvre doit être examinée de plus près. Ainsi,

- les alternatives proposées sont-elles toujours celles auxquelles sont confrontés les candidats au moment de communiquer réellement en langue étrangère ?

- le choix d’un seul et même outil d’évaluation ne limite-t-il pas les investigations aux seuls domaines cognitifs de la connaissance et de certaine habileté (compréhension) isolés par BLOOM (1970) ?

Le recours au questionnaire fermé à choix multiple est une solution qui assure un haut degré de fiabilité à l’épreuve et qui permet parfois, contre l’attente de TAGLIANTE (1991) par exemple, de mesurer des compétences relativement complexes.

Toutefois, la construction de ce questionnaire ne s’est pas révélée parfaite. Ainsi, l’évaluation des compétences des candidats a-t-elle été perturbée dans quatre activités par la présence d’une option du type on ne peut pas le savoir / ce n’est pas dit que les candidats (ou parfois les concepteurs) distinguent parfois mal des autres options (oui / non).

L’organisation d’un pré-test aurait permis de repérer et d’éliminer des items dont le dysfonctionnement est manifeste . Ainsi,

- deux bonnes réponses pouvaient-elles être donnée à un item, alors qu’une seule était initialement attendue par les concepteurs,

- une atteinte trop importante à l’intégrité de trois documents et la re-production monochrome de l’un d’entre eux ont-elles déroutés les candi-dats,

- les éléments à apparier comportaient-ils des expressions par trop iden-tiques dans deux activités,

- la résolution en aveugle, sans que ne soit donc développée la compé-tence à mesurer, de deux exercices était-elle possible dans deux activités,

- un item consistait-il en une question subjective et donc sans réponse évidente. Le faible degré de facilité de certains items n’impose par contre pas leur élimination quand il provient

- de difficultés justement liées à la langue d’origine (dans quatre activités),

- de l’influence de l’organisation des items entre eux (la réponse à un item influence éventuellement celle à l’item suivant ; une force irrépressible pousse le testé à distribuer ses croix de façon harmonieuses dans les cases prévues à cet effet),

- d’un mot ou d’une expression difficile (trois activités),

- de quelque piège (involontaire) dans le choix des distracteurs (une activité). Il doit être signalé que dans aucune activité la compétence cognitive ou la disposition d’une pré-connaissance quelconque n’ont parasité la mesure.

L’analyse de la grille d’évaluation, une fois qu’elle a été complétée, a aussi permis de montrer que l’hypothèse selon laquelle le nombre particulièrement élevé de réponses possibles dans une même activité influencerait le taux de facilité moyen aux 5 items qui la composaient n’était pas confirmée.

L’impression générale qui se dégage de l’évaluation des épreuves de compréhen-sion est donc bonne.

En ce qui concerne les épreuves de production écrite et orale, la répartition des points par compétence dans le respect des objectifs annoncés, la sélection rigoureuse d’évaluateurs (indépendants pour l’écrit) disposant d’une grille d’évaluation et la démultiplication de l’activité de production au niveau certificat sont des facteurs qui contribuent à leur haut degré de pertinence.

De grandes questions restent pourtant provisoirement sans réponse :

Des activités participant dans une même mesure à l’établissement du score total des candidats évaluent des compétences dont les degrés d’importance relative sont particulièrement inégaux, tant au niveau taxonomique (complexité des processus cognitifs mis en oeuvre) qu’au niveau de l’étendue des domaines explorés. La question du dosage des parties et de l’importance relative à donner à chacune d’entre elle pour l’établissement du score total se pose donc :

Une table de spécifications peut-elle être établie ? Quelle doit être la nature / le niveau des intentions qui contraindront la distribution des degrés d’importance relative à accorder à chacune des compétences / performances évaluées ?

En outre, quoique l’analyse des degrés de difficultés de chaque item n’ait rien révélé sur ce plan, les performances des candidats doivent être à un certain degré liées à leur compétence cognitive ou à leurs traits de caractère. Doit-on tenter de neutraliser ces facteurs en en mesurant l’influence ?

Voir en ligne

Palsoh : http://www.palso.gr

L'auteur de cet article

Olivier Delhaye –  Didacticien - Université Aristote de Thessalonique