QCM et lancer de dés : quand l’évaluation rencontre la probabilité

Q

Dans la conception d’un questionnaire à choix multiple (QCM), une question cruciale se pose : combien de réponses proposer pour un item ? Combien d’items sont nécessaires pour évaluer une micro-compétence ? Et combien d’items au total doivent composer un examen ? Pour répondre à ces questions, nous pouvons partir d’une analogie mathématique simple : le lancer de dés.

Peut-on concevoir un QCM équilibré qui reflète fidèlement les compétences d’un candidat sans être biaisé par le hasard ?

Probabilité du double six : un cas exemplaire

Lorsqu’on jette deux dés, la probabilité d’obtenir un double six est de :

P(double six) = 1/6 × 1/6 = 1/36

Autrement dit, une seule combinaison sur 36 aboutit à ce résultat. Si l’on répète plusieurs fois l’expérience, la probabilité de réaliser plusieurs double six de suite diminue de manière exponentielle :

P(deux double six consécutifs) = (1/36)2 = 1/1296

et ainsi de suite.

Inférence sur le nombre de propositions de réponse dans un QCM

Dans un QCM, le nombre de propositions de réponse joue un rôle similaire aux faces des dés. Si l’on propose quatre réponses par question, la probabilité de répondre correctement par pur hasard est de 1/4 (soit 25 %). Si l’on augmente le nombre de propositions à cinq, cette probabilité passe à 1/5 (soit 20 %), et ainsi de suite.

En évaluation, un QCM doit permettre de discriminer les connaissances réelles des candidats d’un simple hasard. Trop peu de propositions biaisent l’évaluation vers une réussite aléatoire, tandis qu’un trop grand nombre peut complexifier inutilement la tâche et détourner de l’objet d’évaluation initial. La littérature en psychométrie recommande souvent trois ou quatre propositions par question comme un bon compromis entre fiabilité et faisabilité [1] [2].

Nombre d’items pour évaluer une même micro-compétence

Dans une épreuve de FLE, par exemple, chaque item vise à mesurer une compétence spécifique (richesse lexicale, construction syntaxique de verbes, conscience interculturelle, compréhension globale d’un document, etc.). Si l’on ne pose qu’un seul item par micro-compétence, le risque de hasard est élevé, comme lorsqu’on tente d’obtenir un double six sur un unique lancer. Pour obtenir une mesure fiable, il faut multiplier les observations.

Une règle empirique, confirmée par la théorie des tests, indique qu’un minimum de trois à cinq items par micro-compétence est nécessaire pour lisser les effets du hasard et obtenir une mesure plus robuste [1] [3].

Combien d’items dans un examen QCM ?

Si un examen comporte 30 questions avec quatre réponses possibles chacune, la probabilité qu’un candidat réponde correctement à la moitié au moins des questions par pur hasard est de :

P(score ≥ 15) = 0,00275 soit 0,27 %

Si le seuil de réussite n’est pas 15/30, mais 18/30 :

P(score ≥ 18) = 0,00005 soit 0,005 %

Dans les deux cas, une probabilité quasiment nulle, ce qui garantit que la réussite à l’examen reflète bien une compétence réelle et non un simple coup de chance.

En pratique, une épreuve d’examen de FLE devrait comprendre au moins 30 items pour garantir une évaluation fiable [1].

Nombre d’activités et structuration d’un examen

Un QCM bien conçu ne se limite pas à une simple juxtaposition d’items. Il doit être structuré en plusieurs blocs d’activités cohérents, chacun évaluant une famille de compétences. L’examen doit comporter plusieurs groupes d’items (compréhension orale, compréhension écrite, conscience linguistique, médiation orale de l’écrit, etc.), contenant chacun un nombre suffisant d’items pour assurer une évaluation fiable. En général, chaque groupe, chaque épreuve, devrait idéalement contenir de 30 à 50 items [1]).

Format optimal d’un examen QCM

Pour des raisons de praticité, un examen comportant de 6 à 20 activités, composées chacune de 5 items proposant 3 ou 4 réponses dont une seule est correcte, revêt un format idéal.

Une seule et même compétence, 5 items, 4 propositions de réponses

Ce format 20 × 5 × 4 permet d’assurer un bon équilibre entre la validité de l’évaluation, la gestion du temps et la fiabilité des résultats [3] [4].

S’il s’agit d’activités d’appariement ou de distribution, il est bien sûr recommandé d’inclure une réponse supplémentaire non appariée (parfois appelée « distracteur en excès » ou « réponse leurre »). Cette technique permet d’éviter que les candidats puissent déduire les bonnes réponses par élimination et garantit une meilleure validité et une meilleure fiabilité des résultats.

Appariements avec réponse leurre

 

Effet du hasard sur le classement dans un concours

Lors d’un concours où 100 candidats sont classés en fonction de leur score, une question clé est de savoir si un candidat peut être mal classé uniquement en raison du hasard.

Supposons que l’examen soit composé de 20 activités, chacune contenant 5 items avec 4 propositions de réponse, et que les coefficients de discrimination des items soient suffisants.

Un candidat répondant totalement au hasard aurait en moyenne :

E(score) = 20 × 5 × 1/4 = 25 réponses correctes sur 100

L’écart-type (la racine carrée de la variance) de cette distribution suit la loi binomiale :

σ = √ (100 × 1/4 × 3/4) ≈ 4,33

Ainsi, environ 95 % des candidats répondant au hasard obtiendraient un score compris entre 16 et 34 réponses correctes :

25 ± (2 × 4,33) ≈ [16 ; 34]

Si le score médian des candidats réellement compétents est largement supérieur à cette plage, la probabilité qu’un candidat répondant au hasard soit classé parmi les meilleurs reste très faible. Toutefois, si la variance des scores est réduite (c’est-à-dire si tous les candidats ont des résultats proches), alors l’effet du hasard peut devenir plus significatif.

Puisque les indices de discrimination des items influencent directement la dispersion des scores, un test composé d’items bien discriminants permet d’accroître la variance des scores et d’assurer une meilleure différenciation des candidats. Cela réduit la probabilité qu’un candidat soit classé de manière erronée uniquement par chance.

Conclusion

L’analogie avec la probabilité d’obtenir un double six met en lumière une réalité fondamentale de l’évaluation : un test fiable nécessite plusieurs observations indépendantes pour minimiser l’effet du hasard. Un bon QCM repose ainsi sur un équilibre entre le nombre de propositions de réponse, le nombre d’items par micro-compétence et la structuration en plusieurs activités/épreuves distinctes.

L’importance des indices de discrimination et de la variance des scores dans un concours montre également qu’un examen bien conçu permet d’assurer un classement juste et représentatif des compétences réelles des candidats, réduisant ainsi les effets du hasard sur les résultats finaux.

Grâce à cette approche, il est possible de concevoir des évaluations plus justes et plus pertinentes pour mesurer les compétences des apprenants en FLE.

__________

[1Rocher, T. (2015). Méthodes psychométriques utilisées dans le cadre des évaluations des élèves. Éducation & Formations, 86-87, 37-57.

[3Laveault, D., & Grégoire, J. (2014). Introduction aux théories des tests en psychologie et en sciences de l’éducation. De Boeck.

[4Delhaye, O. (2023). Évaluation des savoirs et des compétences de communication en langue étrangère [Matériel de cours]. Université Aristote de Thessaloniki.

En résumé

La conception d’un questionnaire à choix multiple (QCM) implique des choix méthodologiques cruciaux pour assurer la validité et la fiabilité des résultats. En utilisant une approche probabiliste, cet article examine la structure optimale d’un QCM en analysant le nombre de propositions de réponse par item, le nombre minimal d’items pour évaluer une micro-compétence et l’organisation d’un examen en plusieurs activités. Nous explorons également l’impact des coefficients de discrimination et la probabilité qu’un candidat soit mal classé dans un concours par effet du hasard. L’article met en évidence l’importance d’une structuration rigoureuse et d’un bon équilibre entre variété des items et robustesse de l’évaluation pour garantir un classement juste des candidats. — Résumé généré par l’IA.

Quand QCM rime avec 421

À propos de l' auteur

Olivier Delhaye

Professionnel de l’enseignement supérieur avec plus de 35 ans d’expérience en linguistique, expert en méthodologie d’enseignement des langues et évaluation des compétences. Co-fondateur du Méthodal OpenLab, auteur et consultant en éducation linguistique.

Lien vers Page perso

Pour citer ce billet aux normes APA7 :

Delhaye, O. (2025). QCM et lancer de dés : quand l’évaluation rencontre la probabilité.  Gallika.net. https://gallika.net/?article991.

Envoyer un commentaire

Qui êtes-vous ?
Votre message

Ce formulaire accepte les raccourcis SPIP [->url] {{gras}} {italique} <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Par Olivier Delhaye
Aucun commentaire
Oui, le site est en pleine restructuration ! Revenez dans quelques jours...
Un blog désormais conçu pour la lecture et la réflexion : peu d’images, un maximum d’idées.
Try Typology theme now for free! Just enter your email and get access to your test website immediately.

* Do not worry, we won't spam.

-->