gallika.net

Suite de la présentation critique d’un instrument d’évaluation mis en œuvre en Grèce (en l’occurrence, les examens de français du PALSO) pour l’octroi d’une certification en langue française, mémoire de DEA – Sciences du langage, Université de Mons-Hainaut, 1998.

Qui dit homme dit langage, et qui dit langage dit société . Ainsi, l’acquisition du langage ou son apprentissage sont-ils le propre de l’homme et constituent-ils depuis la nuit des temps l’objet d’évaluations plus ou moins pertinentes.

La qualité sensiblement meilleure des tests d’évaluation langagière organisés au-jourd’hui est liée

– à celle des modèles théoriques sous-jacents dont le récent établissement est l’aboutissement des progrès réalisés dans l’étude de l’acquisition du langage et dans la didactique des langues d’une part,

– à l’application de la métrologie aux procédures d’évaluation des compétences langagières, de l’autre.

L’étude de ces tests exige donc qu’on s’accorde préalablement

– sur la nature de la compétence langagière et
– sur la nature et la signifiance de la mesure proprement dite.

2.1 La compétence langagière

Les expressions par lesquelles la compétence langagière à évaluer est désignée dans la littérature scientifique sont nombreuses : communicative proficiency, communicative language ability, communicative language proficiency ou encore communicative competence chez HYMES (1972). L’analyse comparée des définitions qui correspondent à chacune de ces dénominations conduit, en accord avec BACHMAN (1990), à appeler compétence langagière la capacité de comprendre et/ou de produire un énoncé

– approprié au système discursif dans lequel il s’intègre, d’une part, et
– adapté à la situation sociolinguistique dans laquelle il s’inscrit, de l’autre.

Cette définition a le mérite d’étendre la notion chomskyenne de compétence à celle que HYMES (1972) désigne sous l’expression de compétence de communication. Elle devient la connaissance (pratique et non nécessairement explicitée) des règles psychologiques, culturelles et sociales qui commandent l’utilisation de la parole dans un cadre social.

L’exploitation de ces connaissances en situation de communication met en oeuvre des compétences organisationnelles et pragmatiques dont l’organisation a été détaillée notamment par BACHMAN (1990) dans le tableau reproduit ci-dessous et qui s’inscrivent elles-mêmes dans le schéma plus large d’une stratégie de réalisation des intentions.

[fig. 1]

Le développement de cette stratégie est subordonné à une compétence qui met tour à tour en oeuvre

– la définition de l’objectif (comprendre / produire un discours aux fonctions, modalités et contenus précis)

– le processus de planification (rassembler les éléments linguistiques néces-saires)

– le processus de construction (composition de la réalisation, assemblage des éléments)

– le processus d’exécution (processus neurologique et physiologique)

– l’énonciation (comprendre / produire le discours).

Une évaluation de la situation (feedback) permet un constant réajustement de cette stratégie. Le rôle des compétences langagières dans ce schéma est de permettre le déroulement des processus de planification et de construction. Des mécanismes psychophysiologiques en rapport avec le canal et le skill sont bien entendu également mis en oeuvre au moment de l’exécution.

[fig.2]

Si ces modèles théoriques de la compétence langagière et de la compétence de stratégie permettent de distinguer clairement les composantes de la compétence de communication et les rapports qu’elles entretiennent, ils ne permettent pas pour autant d’opérer une évaluation séparée de ces dernières puisqu’elles peuvent être simultanément mises en oeuvre. Leur réorganisation selon un modèle qui en rend l’évaluation possible est donc nécessaire.

Denise LUSSIER (1992) a ainsi proposé un modèle théorique organisant les compétences en termes d’objectifs opératoires. Il est reproduit ci-après :

[fig. 3]

Les fonctions langagières sont les intentions de communication ou les événements de parole d’un locuteur indépendamment de la forme des énoncés qui les véhiculent (COSTE 1976), ce sont les actes de parole.

Les situations de communications sont les intentions de communication ou les événements de parole qui actualisent certains référents concrets en relation avec l’environnement physique et spatio-temporel (COSTE 1976), c’est le setting dont HYMES (1969, 1972) a fourni le célèbre modèle d’analyse.

Les types de discours sont les intentions de communications ou des événements de parole qui se concrétisent dans divers genres de textes (COSTE 1976) et qui en contraignent finalement la forme.

Dans ce tableau, les objectifs intermédiaires sont assujettis aux objectifs spécifiques et ne peuvent donc pas constituer l’objet d’une évaluation sommative. L’évaluation des objectifs spécifiques permettra par contre d’inférer le développement des compétences inventoriées en regard des objectifs généraux (habiletés linguistiques) et de l’objectif global (niveau de compétence de communication).

2.2 La mesure de la compétence langagière et les tests langagiers

2.2.1 Finalités des test langagiers
Il existe une très grande variété de critères suivant lesquels les tests langagiers peuvent être différenciés. Leur place dans cette taxonomie complexe permet d’en cerner rapidement les finalités.

Ainsi peut-on distinguer les tests selon l’usage (sélection, entrée, placement, diagnostic, progrès, recherche), les contenus (réalisation, compétence, aptitude, réussite), la place dans le processus d’apprentissage (évaluation formative, sommative) le cadre de référence (norme statistique, norme critériée), la procédure de quantification (subjective, objective) ou la méthode d’investigation (questionnaire à choix multiples, complétion, essai, dictée, closure).

2.2.2 Types de test
Ces traits distinctifs sont la résultante de choix précis dont l’opération peut soulever des problèmes : Quelles compétences mesurer ? Comment les isoler ? Comment les quantifier ? Quelle norme adopter ? Dans quelle mesure les conditions du test sont-elles identiques aux conditions hors-test ? C’est du bon choix des compétences à mesurer et de la méthode adoptée que dépend l’acuité du test.

BACHMAN (1990) relève 5 types de caractéristiques permettant de définir la mé-thode appliquée dans un test :

– l’environnement du test, les conditions dans lesquelles il est organisé,

– son organisation au niveau du temps, des instructions, du canal et de la langue des instructions par exemple,

– les inputs qui le composent (leur nature, le canal, la vitesse, l’authenticité),

– les réponses attendues (sélectionnées, construites, linguistiques ou non) et,

– pour les inputs et les réponses attendues tout à la fois, la longueur, le degré de contextualisation, la distribution de l’information (compacte, diffuse), le type d’informations (abstrait, concret) et les caractéristiques (grammaticales, illocutionnaires, sociolinguistiques).

HENNING (1987) propose quant à lui une dizaine de critères qui permettent à la fois de développer un test de qualité ou d’établir le degré de qualité d’un test : Il doit être tenu compte

– de l’objectif (validité),
– de l’exactitude de la décision (fiabilité),
– du profil des examinés (difficulté),
– de l’appropriation du format et des tâches (applicabilité),
– de la population des examinés (pertinence),
– de la possibilité d’élaboration de tests assimilables ou équivalents (réplication),
– du coût (économie),
– de la disponibilité (disponibilité) et
– de la politique (acceptabilité) .

Les critères de fiabilité et de validité retiendront bien entendu plus particulièrement l’attention.

2.2.3 Fiabilité

L’analyse statistique des résultats à un test permet de mesurer à quel degré les me-sures/observations sont affectées par d’autres facteurs.

Il existe plusieurs méthodes pour évaluer la fiabilité d’un test :

– la première consiste en l’organisation à moins de deux semaines d’intervalle du même test auprès d’une même population d’examinés et en la comparaison des résultats ;

– la seconde consiste à comparer le test avec un test parallèle (même degré de difficulté, mêmes variances) et à inférer les qualités de fiabilité du second sur le premier ;

– une troisième méthode consiste à découper le test en sous-ensembles représentatifs de l’ensemble et à mesurer leur degré de corrélation (splithalf reliability) qui devrait être supérieur à .80.

HENNING (1987) a relevé à plusieurs niveaux les facteurs qui peuvent constituer des menaces à la fiabilité :

– au niveau du testé :

organisation d’un même test à plus de 2 semaines d’intervalle,
révélation des bonnes réponses entre deux organisations d’un même test,
annonce de ce qu’un même test sera organisé deux fois,
organisation d’un test suffisamment court pour que les bonnes réponses soient apprises par coeur,
fatigue ;

– au niveau de la correction :

fatigue du correcteur,
subjectivité relative entre correcteurs ;

– au niveau des conditions :

surveillants différents,
environnement ;

– au niveau du test :

longueur injustifiée,
degré de difficulté trop élevé / trop bas,
degré de discrimination trop élevé / trop bas,
absence d’homogénéité.

2.2.4 Validité

Les résultats d’un test ne peuvent être utilisés que si ce test est valide. Sans quoi, l’interprétation des scores est faussée. Si l’évaluation de la fiabilité d’un test consiste en la recherche de sources d’erreurs potentielles dans la mesure, l’évaluation de la validité consiste en une identification des facteurs autres que ceux qu’on veut mesurer, et qui interviennent pourtant dans la mesure.

Ces facteurs peuvent être :

– un modèle théorique sous-jacent erroné,
– une influence du milieu socioculturel,
– l’existence de préconnaissances,
– la mauvaise connaissance par le candidat d’un domaine investigué,
– l’ambiguité de la question,
– une interférence de la langue d’origine,
– un trait de la nationalité,
– le sexe,
– l’âge,
– etc.

HANSEN et STANSFIELD ont montré combien les caractéristiques cognitives et de personnalité pouvaient influer sur l’acquisition du langage et donc sur l’évaluation du degré de cette acquisition. HENNING (1987) a quant à lui insisté sur le fait que pour être valide, un test doit aussi être construit pour une population d’examinés très précise.

L’analyse de ces tests permet différents types de validations :

– validation de contenu : étude de la mesure dans laquelle les tâches représentent la globalité de la maîtrise en langue étrangère,

– validation de réponse : étude de la mesure dans laquelle le testé peut être surpris par le format des réponses à apporter,

– validation de concordance : mise en corrélation du test avec un test connu (critère), - validation prédictive : la mise en corrélation de deux tests permet d’induire la validité du premier à partir de la validité déjà reconnue du second,

– validation de construct : le but de la validité de construct est de montrer que la construction théorique sous-jacente est elle-même valide :

approche par différence de groupe : basée sur le fait que les testés qui ont atteint un certain niveau de compétence globale devraient avoir atteint un même degré de compétence dans les x épreuves qui composent l’examen. Pour le vérifier, on calcule le degré de corrélation entre ces x épreuves,

validation de construction interne (intérêt : un test suffit) : pour montrer la convergence entre 3 sous-tests, on les met chacun en corrélation avec le score total puis on regarde si le point de corrélation bisérielle avec le total est plus haut que celui qui réunit chacun de ces mêmes 3 tests au total.

Cette analyse très atomisante des tests langagiers ne doit pas faire perdre de vue que ces tests s’inscrivent dans un cadre éducatif, et politique qui change avec le temps et la société, et dont il faut tenir compte. Il ne faut donc pas oublier l’éventuelle décision à laquelle conduisent les tests et les intérêts qu’elle sert.

2.2.5 Techniques de mesure

La stratégie qui conduit au développement d’une évaluation fiable (sans erreur dans la mesure) et valide (sans influence sur les compétences mesurées) consiste, on l’a vu,

– en une définition claire et sans ambiguïté des compétences mesurées,

– en la spécification des conditions / opérations de provocation et d’observation des performances et

– en l’adoption d’une technique de mesure appropriée.

Les mesures peuvent être réalisées au moyen de différentes méthodes dont HENNING (1987) dresse une typologie contrastive. Sont ainsi opposés :

– les tests objectifs (questionnaire à choix multiples, par exemple) aux tests subjectifs (interview, par exemple) ,

– les tests directs (interview) aux tests indirects (questionnaire à choix multiples),

– les tests discret-point (exercices sur l’emploi des prépositions) aux tests intégrés

(développement de skills) , - les tests d’aptitude aux tests de rendement,

– les tests critériés (réussir 6 items sur 10) aux tests normatifs (dépas-ser la moyenne d’une population plus large),

– les speed tests aux power tests et

– les skill tests (production orale) aux feature tests (exercice sur le temps des verbes).

Les définitions et les distinctions qui ont été passées en revue dans ce chapitre constituent des précisions théoriques auxquelles il sera implicitement fait référence dans l’analyse qui suit.

Lien associé :
Palso, http://www.palso.gr

Olivier Delhaye

Contributaire

Profil

Nous contacter

Petits plus …

Nous suivre

2 Précisions théoriques liminaires