5 L’analyse des résultats de l’évaluation

5  L'analyse des résultats de l'évaluation - Image d'illustration

Suite de la présentation critique d’un instrument d’évaluation mis en œuvre en Grèce (en l’occurrence, les examens Examens Examens de français du PALSO) pour l’octroi d’une certification en langue française, mémoire de DEA – Sciences du langage, Université de Mons-Hainaut, 1998.

5.1 Présentation du corpus d’observation.

Rappelons que le corpus d’analyse est constitué des résultats de 1654 candidats présentés par 329 écoles et examinés le 27 mai 1998 dans 38 centres répartis sur l’ensemble du territoire grec.

1207 candidats présentaient les examens Examens Examens du niveau élémentaire et 446 ceux du niveau certificat.

100 variables ont été isolées et ana-lysées avec l’aide des logiciels SPSS/PC+ et Microsoft Excel 97.

Ces variables sont :

- l’identité de l’examiné,

- sa ville d’origine,

- le nom de son école de langue,

- le centre de passation des examens Examens Examens ,

- le niveau présenté,

- la langue présentée,

- les scores totaux à chacune des 3 (ou 4) épreuves,

- les résultats à chacun des 80 à 90 items composant les épreuves de compréhension des discours oral et écrit.

Les feuilles de calculs sur lesquelles reposent les premières conclusions sont toutes reproduites en annexe.

5.2 Une homogénéité relative

Le calcul de la moyenne des notes totales en fonction du centre d’examen et/ou de l’école a mis en évidence une absence d’homogénéité dans les résultats qu’objectivent aux deux niveaux :

- l’importante variation de la moyenne des scores totaux par centre et/ou par école et

- un indice de dispersion des scores totaux très variable et très élevé au sein-même de chaque centre/école, de l’autre.

À titre d’illustration, les quatre graphes rassemblés sur la page suivante mettent en évidence

- l’importance de la variation de l’écart entre la moyenne par centre et la moyenne réduite des scores totaux de l’ensemble de la population des examinés, d’une part,

- la variabilité et l’importance des indices de dispersion des scores totaux comparés ici à l’indice de dispersion du score moyen réduit de l’ensemble de la population, de l’autre.

Cette hétérogénéité peut être due à la petitesse du nombre des candidats présentés par chaque école (ce nombre varie entre 2 et 32, niveaux confondus) ou à celle du nombre de candidats examinés dans la plupart des centres (moins de 20 pour plus de la moitié des centres, niveaux confondus). Les moyennes des scores totaux obtenus dans les plus grands centres (Athènes, Thessalonique) sont d’ailleurs nettement plus proches de la moyenne nationale, ce qui tendrait à prouver que l’hétérogénéité des scores totaux dépistée est liée à la petite taille des regroupements opérés. Les premières conclusions seront donc présentées avec la légère réserve qu’impose ce manque d’homogénéité.

L’observation de disparités significatives entre les scores totaux des examinés au sein de mêmes centres ou de mêmes écoles pourrait aussi faire penser que des fac-teurs qui ne font probablement pas partie des variables indépendantes reprises dans le corpus observé influent sur le score des examinés.

L’origine de ces disparités pourrait être, par exemple, une mauvaise information ou formation spécifique des enseignants. Le fait que, dans un même centre ou dans une même école, il ne semble pas exister de corrélation entre le taux moyen de réussite des élèves au niveau élémentaire et celui des élèves au niveau certificat infirme pourtant cette hypothèse. En effet, les écoles de langues, très nombreuses en Grèce, comptent en général peu d’élèves dans les classes d’apprentissage du français et confient à un seul et même enseignant la préparation des candidats aux deux niveaux des examens PALSO. On se serait donc attendu à voir transparaître une même qualité de formation des candidats en comparant les scores obtenus pour chaque niveau dans une même école ou dans un même centre. Or cette comparaison a révélé une grande disparité entre les résultats au niveau élémentaire et au niveau certificat.

Un autre facteur qui peut avoir contribué à compromettre l’homogénéité des résultats est le fait que les écoles suivent des politiques différentes en ce qui concerne l’inscription ou non de leurs élèves aux examens. Certaines préfèrent ne présenter aux examens que les élèves dont la réussite est pratiquement sûre et utiliser ce haut taux de réussite comme argument publicitaire à la rentrée scolaire suivante.

D’autres écoles voient dans la présentation des examens PALSO un objectif général de cours et inscrivent systématiquement tous les élèves qui le suivent. Mais à nouveau, l’adoption d’une de ces tactiques concernerait très probablement autant les élèves qui préparent le niveau élémentaire que ceux qui se préparent au certificat et elle devrait donc se traduire par une forte corrélation entre les taux moyens de réussite à ces deux niveaux au sein d’une même école, ce qui n’est pas souvent le cas.

Avec la prudence, répétons-le, qu’impose la constatation d’un manque d’homogénéité dans la distribution des notes totales par centre et/ou par école, il sera conclus que cette hétérogénéité ne peut être directement expliquée par aucune des variables isolées et qu’elle ne semble pas devoir dépendre d’un facteur lié à l’école fréquentée ou au centre d’examen.

Une étude du profil affectif, cognitif et socioculturel des candidats permettrait peut être de dégager quelque corrélation qui permette d’abandonner l’idée provisoire que l’hétérogénéité des résultats est simplement due à la petitesse des nombres de candidats alignés par chaque école et dans chaque centre.

5.3 La signifiance de la certification

Aux deux niveaux, on observe que les notes totales sont distribuées entre les candidats suivant une distribution normale (courbe de GAUSS) légèrement biaisée.

Ce biais positif pourrait traduire un trop haut degré de facilité des examens. On serait dès lors tenté d’éliminer les activités auxquelles l’ensemble des candidats ont obtenus un score élevé mais certaines de ces activités, placées en début d’épreuve, sont justement destinées à mettre les candidats en confiance.

POPHAM (1978) a par ailleurs montré que si on élimine les items dont le degré de facilité est trop élevé ou trop faible, on rend le test moins sensible au plan des objectifs spécifiques . En outre, le fait qu’un examiné trouve un test facile ou difficile constitue un renseignement pertinent.

Il ne faut pas non plus perdre de vue que les activités qui consistent en l’exploitation de documents authentiques sont par leur nature-même composées d’items aux degrés de difficulté variés et difficiles à établir par avance .

Enfin, l’élimination des items trop faciles ne peut pas être décidée sans que l’on tienne compte du critère et/ou du seuil de réussite. Or, la distribution des notes comparée au critère de réussite qui est l’obtention d’un score total minimum de 60%, montre que le degré de signifiance de la certification est très faible : 88.2 % de la population des candidats réussissent les examens de l’élémentaire et 77.4 % de la population des candidats ceux du certificat.

Les causes probables de cette facilité d’obtention des certifications peuvent être les suivantes :

Premièrement, les épreuves qui ont le plus de poids dans la notation finale sont les épreuves qui comportent des questionnaires à choix multiples. Or, un nombre assez important d’items peut être réussi par chance (ou en trichant) comme le montrent par exemple les résultats des testés les plus faibles à l’épreuve de compréhension écrite, tous supérieurs à 32 % au niveau élémentaire et 37 % au niveau certificat.

Une autre explication à ce haut degré de facilité de réussite peut être que pour des raisons politiques et/ou commerciales, le seuil de réussite de l’épreuve a été placé bas.

En effet, au plan politique, les commanditaires peuvent considérer l’obtention du diplôme élémentaire comme un encouragement pour l’entreprise d’études visant l’obtention du certificat. Au plan commercial, il est certain que la population des élèves se dirigera plus volontiers vers la préparation d’un diplôme facile à obtenir. Une mention (très bien, bien, assez bien, passable) figure certes sur les certifications octroyées , mais rien ne permet de les interpréter.

Un employeur pourrait donc être trompé par la présentation d’une certification niveau élémentaire, mention passable, qui, en définitive, signifie pauvrement que son détenteur ne fait pas partie des 11% d’examinés qui ne sont pas arrivés à l’obtenir.

Tout ceci pose le problème de la sémiologie du score dont la définition doit être soigneusement établie par les commanditaires de l’épreuve.

5.4 La validation du modèle théorique

Pour les raisons exposées plus haut, le degré de corrélation entre réussite et score total n’est pas aussi élevé qu’on l’attendrait. La poursuite de l’analyse se concentrera donc sur les corrélations à établir avec le score total et non plus avec le facteur réussite.

Aux deux niveaux (certificat et élémentaire), les degrés de corrélations entre les scores obtenus à chaque épreuve et le score obtenu à l’ensemble de l’examen sont positifs et élevés (entre .46 et .94 pour l’élémentaire, entre .63 et .87 pour le certificat). Leur variation d’un niveau à l’autre s’explique par la différence d’interpondération des épreuves (70+10+20 pour l’élémentaire, 45+20+15+20 pour le certificat). La question du choix des critères de pondération a déjà été posée infra et reste provisoirement sans réponse.

Il serait par contre intéressant de valider par l’observation des tableaux statistiques reproduits ci-dessous le modèle théorique sur lequel sont articulés les objectifs des examens. Ces examens comportent 4 épreuves sensées mesurer des compétences de natures différentes deux à deux (oral vs écrit, compréhension vs expression).

Niveau Elémentaire
CORRELATIONS : TOTAL REUSSITE COMPR. ÉCR. EXPR.ÉCR. COMPR. OR.
TOTAL 1.0000
REUSSITE .6491** 1.0000
COMPR. ÉCR. .9433** .6285** 1.0000
EXPR.ÉCR. .6539** .4382** .5593** 1.0000
COMPR. OR. .4600** .2477** .1742** .1262** 1.0000
1-tailed Signif : *-.01 **-.001

Niveau Certificat
CORRELATIONS : TOTAL REUSSITE COMPR. ÉCR. EXPR. ÉCR. COMPR. OR. EXPR. OR.
TOTAL 1.0000
REUSSITE .7361** 1.0000
COMPR. ÉCR. .8765** .6636** 1.0000
EXPR. ÉCR. .7579** .5528** .5840** 1.0000
COMPR. OR. .6323** .4560** .4622** .2982** 1.0000
EXPR. OR. .7223** .5178** .4536** .4199** .2945** 1.0000
1-tailed Signif : *-.01 **-.001

Les faibles corrélations entre la mesure de compétences orales et la mesure de compétences écrites (.17 et .12 pour l’élémentaire , .46, .29, .45 et .41 pour le cer-tificat) rassurent : ces épreuves évaluent donc bien des compétences à distinguer.

La corrélation plus forte entre les résultats aux épreuves orale et écrite du certificat peut s’expliquer par le fait que les apprenants ont atteint un niveau de maîtrise des compétences communicationnelles et surtout linguistiques générales qui autorise une certaine interaction entre les capacités développées séparément à l’oral et à l’écrit et qui conduit au développement plus rapide de compétences devenues interférentes.

Les plus fortes corrélations entre la première et la seconde épreuve écrite (.55 à l’élémentaire et .58 au certificat) reflètent probablement le recouvrement concerté des objectifs d’évaluation décrit supra .

La corrélation très faible (.29) entre les épreuves de compréhension du discours oral et de production orale au certificat montre que ces deux compétences doivent bien être mesurées séparément.

Enfin, la très forte corrélation (.94 à l’élémentaire, .87 au certificat) entre l’épreuve de compréhension d’un discours écrit et le score total peut encourager les enseignants à organiser, surtout au niveau élémentaire, des tests de prédiction du score total aux examens mesurant exclusivement cette compétence de communication.

Par la mise en rapport

- des coefficients de haute ou de faible corrélation entre les résultats globaux obtenus à chacune des épreuves qui composent l’examen, d’une part, et

- des inter-relations théoriques entre les compétences que chacune de ces mêmes épreuves évalue, de l’autre, l’établissement de la validité de construct de l’instrument semble donc prouver que le modèle didactique Didactique La didactique se différencie de la pédagogie par le rôle central des contenus disciplinaires et par sa dimension épistémologique. qui préside à l’organisation des objectifs d’apprentissage / d’évaluation est lui-même valide.

5.5 La fiabilité de l’examen

Pour savoir dans quelle mesure la variabilité totale observée dans les résultats à une épreuve peut être expliquée par le fait que les observations proviennent de centres différents, une analyse de la variance par épreuve et en fonction des centres peut être effectuée.

Cette analyse révèle qu’on ne peut pas rejeter l’hypothèse d’une certaine corrélation entre la variabilité des résultats à chaque épreuve et l’identité du centre de passation de ces épreuves, puisque les valeurs de F ne sont pas fort proches de 1 . Toutefois, le fait que les valeurs de F varient peu d’une épreuve à l’autre semble indiquer qu’aucun facteur de variabilité n’exerce une influence plus importante sur la fiabilité de l’épreuve que les autres.

Ddl intergroupe Ddl intragroupe Rapport F Signification Élémentaire Compréhension écrite 31 1175 2.136 .000 Expression écrite 31 1175 1.904 .002 Compréhension orale 31 1175 2.241 .000 Certificat Compréhension écrite 23 422 1.696 .024 Expression écrite 23 422 2.772 .000 Compréhension orale 23 422 2.250 .001 Production orale 23 422 4.336 .000 Cette conclusion permet de confirmer l’hypothèse formulée précédemment et selon laquelle la qualité d’audition de la cassette audio (épreuve de compréhension d’un discours oral) ne peut avoir affecté la qualité de l’évaluation des compétences de communication des examinés dans une plus grande mesure que ne l’auraient fait d’autres facteurs liés aux centres dans les deux autres épreuves de l’examen.

Par contre, on peut se demander si l’identité des évaluateurs aux examens de production orale n’influe pas sur le degré de fiabilité de cette épreuve dans la mesure où le rapport entre les variances intra et inter-centres y est deux fois plus élevé : F(23,422) = 4,336. Toujours est-il que l’absence de corrélation nette entre la variabilité des résultats à chacune des trois premières épreuves de l’examen et l’identité du centre vaut pour les deux niveaux d’évaluation ce qui rend encore plus improbable quelque influence nette des conditions de passation de ces épreuves sur le score total final.

5.6 La cohérence interne des épreuves

Une étude de fiabilité fondée sur les covariances entre items au sein des épreuves consistant en un questionnaire à choix multiples (épreuves de compréhension écrite puis de compréhension orale, niveau élémentaire puis certificat) révèle une bonne cohérence interne des épreuves de compréhension d’un document écrit, et ce aux deux niveaux (.85 et .82) : les items forment un ensemble suffisamment homogène pour qu’il soit justifié d’additionner leurs résultats pour former un score total

Coeff. a de CRONBACH Élémentaire Compréhension écrite .8522 Compréhension orale .2141 Certificat Compréhension écrite .8163 Compréhension orale .5737 L’analyse de la corrélation de chaque item avec l’épreuve qui l’inclut n’est pas recoupée par les éventuels hauts degrés de facilité ou de difficulté de ces items.

Le coefficient de cohérence interne (.21 et .57) pour les épreuves de compréhension d’un discours oral sont par contre décevants aux deux niveaux. Les raisons pour lesquelles l’ensemble des items est peu homogène dans cette épreuve sont probablement que le nombre d’items est petit et que l’éventail des types d’activité (compétences et habiletés développées) est moins large. Le coefficient de cohérence interne pour cette épreuve au niveau certificat est d’ailleurs relativement plus élevé (.57). Or, la différence fondamentale entre les deux niveaux semble exclusivement porter sur le nombre d’items et sur le nombre de compétences évaluées .

Il peut être conclu que le degré de cohérence interne de chacune des épreuves écrites est fort bon, et que celui des épreuves de compréhension d’un document oral l’est moins parce que le nombre d’items et de tâches n’est probablement pas suffisant pour que l’évaluation soit significative.

5.7 La consistance des activités

L’analyse de la consistance interne de chaque activité / de chaque situation (groupe de 5 items) dans les épreuves de compréhension écrite et orale révèle des coefficients a de CRONBACH souvent faibles et variables (de .0022 à .7151).

Cette faiblesse du taux de fiabilité que ne laissait pas attendre la très grande cohérence interne de deux des quatre épreuves peut être due

- au dysfonctionnement de certains items et

- au fait que les items portant sur un même document social et apparte-nant donc à une même activité peuvent être d’une nature et d’un degré de complexité très variables.

On remarque d’ailleurs une augmentation significative du coefficient a de CRONBACH après l’élimination des items douteux ou quand on analyse le degré de cohérence interne des activités justement groupées selon la nature des compétences qu’elles mesurent.

Coeff. a de CRONBACH Élémentaire Système linguistique .7681 Performance communicationnelle .7471 Certificat Système linguistique .7932 Performance communicationnelle .5396 Le bon coefficient de cohérence interne pour chacun des deux groupes hypothétiques d’activités que constituent les activités déclenchant une mise en exercice du système linguistique et celles qui font réaliser une performance communicationnelle constitue une confirmation de ce qu’au sein de chaque groupe hypothétique, les tâches ont des points communs qui justifient leur regroupement. En outre, le coefficient plus faible de l’ensemble des activités communicationnelles au certificat augmente de façon sensible (.6022) dès qu’on élimine 8 items dont le dysfonctionnement a été signalé infra .

L’analyse de la consistance interne de chaque activité/situation ne peut donc pas nous fournir d’indication utile puisque ces activités/situations constituent des grou-pement de tâches à chaque fois différentes. Par contre, la consistance interne du regroupement de ces tâches par nature est bonne, surtout après l’élimination des items suspects.

5.8 La qualité des items

Le relevé des items auxquels le score moyen était trop faible ou au contraire trop haut a déjà fait l’objet d’une analyse fouillée au chapitres 4.2. et a servi les arguments avancés dans la critique sociolinguistique qui a précédé ce chapitre.

L’analyse des items (4.2) a montré le souci des concepteurs - d’éviter les réponses mixtes (mettant par exemple en oeuvre le repé-rage de renseignements de natures différentes),

- d’éviter les alternatives dont le degré probable de validité est proportionnel à la longueur de formulation,

- d’éviter les distracteurs inconsistants ou qui n’existent pas,

- de choisir un nombre varié mais sage d’options,

- de ne pas correler les options (a, b, c, a+b mais pas c),

- de ne pas tendre de pièges ou imaginer de questions astucieuses,

- de ne jamais poser de questions dont la réponse ne nécessite pas la lecture du document,

- de ne pas formuler d’alternatives de façon trop lourde ou redondante.

Ce souci de qualité est confirmé par le très petit nombre d’items dont le haut degré de difficulté pourrait traduire quelque dysfonctionnement :

Pour rappel, le degré de facilité de l’item est égal à la somme des réponses correctes divisée par le nombre des examinés. Un bon degré de facilité tourne aux alentours de .5 ; les taux inférieurs à .33 ou supérieurs à .66 peuvent indiquer un dysfonctionnement de l’activité ou simplement une trop grande simplicité .

Il a été montré au cours de l’analyse de la mise en oeuvre de l’évaluation que la suppression des nombreuses consignes, activités ou parties d’activités trop faciles n’est pas imaginable dans la mesure où

- elles constituent souvent les étapes obligées d’une stratégie de décodage des documents proposés aux testés,

- il n’est de toute façon pas possible d’organiser un pré-test qui permette de mesurer le degré de facilité de chaque item.

Par contre, l’élimination de ces items au moment de la notation, après la passation des examens et une analyse statistique des résultats, pourrait permettre de résoudre le déséquilibre observé dans la distribution des notes et de réduire son influence négative sur la signifiance de la certification.

La proportion d’items difficiles dont l’élimination a déjà été envisagée sous 4.2 est quant à elle très faible (6 items à l’ensemble des questionnaires à choix multiples du niveau élémentaire et 5 items au certificat)).

Lors de l’analyse des items , il a été tenu compte de la qualité du choix des distracteurs , et de la mesure dans laquelle ils ne faussent pas les résultats.

Voir en ligne

Palso : h

L'auteur de cet article

Olivier Delhaye –  Didacticien - Université Aristote de Thessalonique