Dans la conception d’un questionnaire à choix multiple (QCM), une question cruciale se pose : combien de réponses proposer pour un item ? Combien d’items sont nécessaires pour évaluer une micro-compétence ? Et combien d’items au total doivent composer un examen ? Pour répondre à ces questions, nous pouvons partir d’une analogie mathématique simple : le lancer de dés.
Peut-on concevoir un QCM équilibré qui reflète fidèlement les compétences d’un candidat sans être biaisé par le hasard ?
Probabilité du double six : un cas exemplaire
Lorsqu’on jette deux dés, la probabilité d’obtenir un double six est de :
P(double six) = 1/6 × 1/6 = 1/36
Autrement dit, une seule combinaison sur 36 aboutit à ce résultat. Si l’on répète plusieurs fois l’expérience, la probabilité de réaliser plusieurs double six de suite diminue de manière exponentielle :
P(deux double six consécutifs) = (1/36)2 = 1/1296
et ainsi de suite.
Inférence sur le nombre de propositions de réponse dans un QCM
Dans un QCM, le nombre de propositions de réponse joue un rôle similaire aux faces des dés. Si l’on propose quatre réponses par question, la probabilité de répondre correctement par pur hasard est de 1/4 (soit 25 %). Si l’on augmente le nombre de propositions à cinq, cette probabilité passe à 1/5 (soit 20 %), et ainsi de suite.
En évaluation, un QCM doit permettre de discriminer les connaissances réelles des candidats d’un simple hasard. Trop peu de propositions biaisent l’évaluation vers une réussite aléatoire, tandis qu’un trop grand nombre peut complexifier inutilement la tâche et détourner de l’objet d’évaluation initial. La littérature en psychométrie recommande souvent trois ou quatre propositions par question comme un bon compromis entre fiabilité et faisabilité [1] [2].
Nombre d’items pour évaluer une même micro-compétence
Dans une épreuve de FLE, par exemple, chaque item vise à mesurer une compétence spécifique (richesse lexicale, construction syntaxique de verbes, conscience interculturelle, compréhension globale d’un document, etc.). Si l’on ne pose qu’un seul item par micro-compétence, le risque de hasard est élevé, comme lorsqu’on tente d’obtenir un double six sur un unique lancer. Pour obtenir une mesure fiable, il faut multiplier les observations.
Une règle empirique, confirmée par la théorie des tests, indique qu’un minimum de trois à cinq items par micro-compétence est nécessaire pour lisser les effets du hasard et obtenir une mesure plus robuste [1] [3].
Combien d’items dans un examen QCM ?
Si un examen comporte 30 questions avec quatre réponses possibles chacune, la probabilité qu’un candidat réponde correctement à la moitié au moins des questions par pur hasard est de :
P(score ≥ 15) = 0,00275 soit 0,27 %
Si le seuil de réussite n’est pas 15/30, mais 18/30 :
P(score ≥ 18) = 0,00005 soit 0,005 %
Dans les deux cas, une probabilité quasiment nulle, ce qui garantit que la réussite à l’examen reflète bien une compétence réelle et non un simple coup de chance.
En pratique, une épreuve d’examen de FLE devrait comprendre au moins 30 items pour garantir une évaluation fiable [1].
Nombre d’activités et structuration d’un examen
Un QCM bien conçu ne se limite pas à une simple juxtaposition d’items. Il doit être structuré en plusieurs blocs d’activités cohérents, chacun évaluant une famille de compétences. L’examen doit comporter plusieurs groupes d’items (compréhension orale, compréhension écrite, conscience linguistique, médiation orale de l’écrit, etc.), contenant chacun un nombre suffisant d’items pour assurer une évaluation fiable. En général, chaque groupe, chaque épreuve, devrait idéalement contenir de 30 à 50 items [1]).
Format optimal d’un examen QCM
Pour des raisons de praticité, un examen comportant de 6 à 20 activités, composées chacune de 5 items proposant 3 ou 4 réponses dont une seule est correcte, revêt un format idéal.

Ce format 20 × 5 × 4 permet d’assurer un bon équilibre entre la validité de l’évaluation, la gestion du temps et la fiabilité des résultats [3] [4].
S’il s’agit d’activités d’appariement ou de distribution, il est bien sûr recommandé d’inclure une réponse supplémentaire non appariée (parfois appelée « distracteur en excès » ou « réponse leurre »). Cette technique permet d’éviter que les candidats puissent déduire les bonnes réponses par élimination et garantit une meilleure validité et une meilleure fiabilité des résultats.
Effet du hasard sur le classement dans un concours
Lors d’un concours où 100 candidats sont classés en fonction de leur score, une question clé est de savoir si un candidat peut être mal classé uniquement en raison du hasard.
Supposons que l’examen soit composé de 20 activités, chacune contenant 5 items avec 4 propositions de réponse, et que les coefficients de discrimination des items soient suffisants.
Un candidat répondant totalement au hasard aurait en moyenne :
E(score) = 20 × 5 × 1/4 = 25 réponses correctes sur 100
L’écart-type (la racine carrée de la variance) de cette distribution suit la loi binomiale :
σ = √ (100 × 1/4 × 3/4) ≈ 4,33
Ainsi, environ 95 % des candidats répondant au hasard obtiendraient un score compris entre 16 et 34 réponses correctes :
25 ± (2 × 4,33) ≈ [16 ; 34]
Si le score médian des candidats réellement compétents est largement supérieur à cette plage, la probabilité qu’un candidat répondant au hasard soit classé parmi les meilleurs reste très faible. Toutefois, si la variance des scores est réduite (c’est-à-dire si tous les candidats ont des résultats proches), alors l’effet du hasard peut devenir plus significatif.
Puisque les indices de discrimination des items influencent directement la dispersion des scores, un test composé d’items bien discriminants permet d’accroître la variance des scores et d’assurer une meilleure différenciation des candidats. Cela réduit la probabilité qu’un candidat soit classé de manière erronée uniquement par chance.
Conclusion
L’analogie avec la probabilité d’obtenir un double six met en lumière une réalité fondamentale de l’évaluation : un test fiable nécessite plusieurs observations indépendantes pour minimiser l’effet du hasard. Un bon QCM repose ainsi sur un équilibre entre le nombre de propositions de réponse, le nombre d’items par micro-compétence et la structuration en plusieurs activités/épreuves distinctes.
L’importance des indices de discrimination et de la variance des scores dans un concours montre également qu’un examen bien conçu permet d’assurer un classement juste et représentatif des compétences réelles des candidats, réduisant ainsi les effets du hasard sur les résultats finaux.
Grâce à cette approche, il est possible de concevoir des évaluations plus justes et plus pertinentes pour mesurer les compétences des apprenants en FLE.
__________
[1] Rocher, T. (2015). Méthodes psychométriques utilisées dans le cadre des évaluations des élèves. Éducation & Formations, 86-87, 37-57.
[3] Laveault, D., & Grégoire, J. (2014). Introduction aux théories des tests en psychologie et en sciences de l’éducation. De Boeck.
[4] Delhaye, O. (2023). Évaluation des savoirs et des compétences de communication en langue étrangère [Matériel de cours]. Université Aristote de Thessaloniki.
En résumé
La conception d’un questionnaire à choix multiple (QCM) implique des choix méthodologiques cruciaux pour assurer la validité et la fiabilité des résultats. En utilisant une approche probabiliste, cet article examine la structure optimale d’un QCM en analysant le nombre de propositions de réponse par item, le nombre minimal d’items pour évaluer une micro-compétence et l’organisation d’un examen en plusieurs activités. Nous explorons également l’impact des coefficients de discrimination et la probabilité qu’un candidat soit mal classé dans un concours par effet du hasard. L’article met en évidence l’importance d’une structuration rigoureuse et d’un bon équilibre entre variété des items et robustesse de l’évaluation pour garantir un classement juste des candidats. — Résumé généré par l’IA.

Quand QCM rime avec 421
© Pexels.com | Licence CC0
Envoyer un commentaire