Psychologie différentielle : CM n°2&3 Les processus d’évaluation Définition : " L’évaluation désigne l’acte par lequel, à propos d’un événement, d’un individu ou d’un objet, on émet un jugement en se référant à un ou plusieurs critères " Noizet. Pour qu’une évaluation soit objective, il faut que les critères de jugement soient définis. Ils sont plus ou moins explicites, conscients, mais on rencontre souvent des biais qu’il faut prendre en compte. Les critères constituent à la fois la force et la faiblesse de l’évaluation car il n’est pas toujours facile de les définir. On peut les définir par rapport à des objectifs (sociaux, pédagogiques etc.). C’est à ce niveau-là qu’on trouve de grandes différences individuelles. Constat de divergences entre évaluateurs : En situation réelle : Lorsque l’on veut mettre en évidence les différences individuelles en situation réelle, on doit avoir des instruments plus souples pour être adaptés à cette situation. Il faut cependant que les correcteurs aient évalué les mêmes productions sur des populations comparables (baccalauréat par exemple) : standardisation. Les premières informations que des études en situations réelles ont données portent sir de très grandes différences entre jurys et selon les matières. On constate au baccalauréat plus de divergence dans des matières comme les mathématiques que comme la philosophie (contrairement à ce que l’on pourrait croire). Par exemple, selon les jurys, le pourcentage de reçus varie de l’ordre de 40% pour la philosophie et de plus de 50% pour les mathématiques. Ces différences considérables ne sont pas dues au hasard. En situation expérimentale : On travaille en contrôlant les variations dues à la production elle-même. On va par exemple travailler sur des copies dactylographiées pour éliminer l’aspect de la production ou l’orthographe dans l’évaluation. On peut même contrôler le contenu des productions : contrastes ou uniformisation des copies. L’idée est de mettre en évidence les différences entre évaluateurs en mesurant la fidélité inter ou intra-correcteur.
Exemple : Étude de Bacher : Évaluation de 37 copies de science portant sur le même sujet et faites par une population comparable. Deux correcteurs corrigent deux fois chaque copie. Le correcteur A va corriger avec un délai de 3 ans entre le test et le re-test et 10 mois pour B. La variable dépendante est le pourcentage d’admissibles. Pour A on a 45% de reçus à la première évaluation et toujours 45% trois ans après. De même, pour B, on a 70% de reçus pour les deux évaluations. On constate déjà des différences considérables entre correcteurs et une stabilité intra-correcteur. Par l’utilisation du coefficient de corrélation (indice basé sur une comparaison de classement) on a une corrélation positive de .81 pour B et .58 pour A. La corrélation positive indique que les classements sont plutôt stables entre les deux évaluations cependant la corrélation pour B est nettement plus forte que pour A. dans l’idéal, on devrait avoir une corrélation de +1 (classements identiques). On observe donc plus de changements dans le classement pour le correcteur A que pour B. La stabilité intra-correcteur est plus faible pour A que pour B à cause du délai. Mais les fidélités d’évaluation chez les deux correcteurs indiquent que les critères d’évaluation ont changé. Étude des principaux biais de l’évaluation scolaire : Un biais est une information qui n’est pas pertinente dans le cadre de l’évaluation. Il s’agit d’informations connues avant l’évaluation elle-même, à priori indépendantes de la production elle-même. On distingue deux catégories de biais : les informations dites génériques qui concernent des caractéristiques de l’échantillon (établissement d’origine, niveau de la classe etc.) et les informations dites propres qui caractérisent l’élève lui-même (nom, performance antérieure). Les effets d’assimilation : Biais qui ont en commun le fait de provoquer chez l’évaluateur un certain nombre d’inférences, d’assimilations, à partir des informations fournies. Effet des informations concernant les performances antérieures des élèves : 12 copies dactylographiées, choisies pour être de niveaux variés, sont corrigées par 12 évaluateurs. Étape 1 : chaque évaluateur corrige les 12 copies. Étape 2 : deux mois plus tard, on redemande aux évaluateurs (non prévenus) de recorriger alors qu’il s’agit de six nouvelles copies de niveau homogène (moyen). On indique sur ces copies le niveau fictif de la copie parmi ceux donnés par l’évaluateur sur les premières copies. Résultats : les notes accordées à la deuxième étape varient de deux points selon que les copies ont été présentées comme de niveau bas ou élevé : effet d’assimilation. L’évaluateur a cherché à réduire la distance entre la note fictive et la note qu’il aurait mise spontanément. Ces résultats s’expliquent selon la théorie de la dissonance cognitive (situation avec des avis contradictoires d’une même personne). Effet d’information concernant le niveau socio-économique des familles et l’origine ethnique des élèves : Ces effets entraînent la création d’effet d’attente venant des représentations des évaluateurs au sujet des productions. Il y a prise en compte sélective des indices utilisés dans l’évaluation en fonction de l’attente de l’évaluateur qui ne prendra en compte que les informations qui l’intéressent, cohérentes par rapport à ses attentes. Lorsqu’il y a contradiction entre informations extérieures et intérieures à la copie ; l’effet d’assimilation est accentué. Les effets de contraste : Ce sont des biais qui ne sont pas liés à des informations sur l’élève mais à la place de la copie dans le paquet. L’échelle mise en place par l’évaluateur n’est pas stable mais va se déplacer durant la correction, ce qui va influer sur des éléments en fonction de la place de la copie dans cette correction. Effet séquentiel (d’ordre) : On le met en évidence avec une procédure expérimentale (copies fictives avec évaluateurs fiables : conditions standardisées, en faisant varier l’ordre de correction des copies). Expérience : 26 copies sont corrigées par deux groupes de correcteurs (correction : directe ou inverse).
Les copies corrigées en premier son sur-notées, celles en dernier sont sous-notées et l’effet est d’autant plus important que l’on considère une part petite du paquet de copies. Lorsque l’évaluation commence, l’évaluateur n’a pas de repère. Il part sur un idéal par rapport à ce qu’il attend. Lors de la correction de la première copie, il va y avoir un contraste avec cet idéal qui va entraîner une sous-notation. Il y aura ensuite un déplacement de l’échelle de jugement qui prendra en compte la première copie. Seule la première copie est sous-notée, il suffit de ne pas la noter directement mais de la recorriger après. Effet d’ancrage : On appelle une ancre, une copie qui est très nettement supérieure ou inférieurs aux autres. L’effet d’ancrage se manifeste sur la copie qui suit l’ancre. Expérience avec des copies fictives :
Les valeurs indiquées dans le tableau sont les notes de la copie qui suit l’ancre. Plus l’ancre est importante, plus l’effet d’ancrage est massif. On observe aussi que l’échelle de jugement va complètement être influencée par la nature de l’ancre (sur-notation si la copie est précédée d’ancre basse et sous-notation si la copie est précédée d’ancre haute). Ces effets de contrastes sont différents selon les matières (plus accentués pour les matières littéraires que scientifiques). Comment limiter les biais ? Procédures à priori : Les trois procédures suivantes sont dites à priori car elles interviennent avant la correction et l’attribution des notes. Modification de l’échelle de notation : On propose de réduire le risque d’erreur en limitant le nombre d’échelons possibles dans l’évaluation sur l’échelle de jugement. Plus l’échelle est fine, plus le risque d’erreur est important. Utilisation d’un barème externe : Il s’agit de découper la tâche du sujet en sous-tâches clairement identifiées et on va chercher si ces tâches ont été réussies ou pas, ce qui revient à anticiper le contenu d’une composition. Il faut que ce barème soit construit par le constructeur du sujet sans tenir compte des critères de jugement des évaluateurs. Concertation de jugement des évaluateurs : Il s’agit cette fois, après quelques corrections de copies, de tenir compte des avis des évaluateurs afin de modifier les critères de notation en les homogénéisant. Procédures à posteriori (après l’évaluation et la cotation) : Ajustement des moyennes : Procédure statistiques qui consiste à homogénéiser les moyennes des différents correcteurs s’il y a des différences importantes entre eux (augmentation des notes pour les correcteurs sévères et réduction pour les correcteurs généreux). Réduction des notes : Procédure statistique qui correspond aux notes z (notes centrées réduites) qui permet de diminuer les différences de sévérité, d’échelles de notation (discrimination différente selon les correcteurs). C’est la méthode la plus efficace mais qui n’est pas admise dans le milieu scolaire car la notation varie entre –3 et +3 (problèmes de représentation, culturels etc.) Multi-correction : Procédure un peu illusoire car même si les moyennes de différents correcteurs sont identiques, leurs classements peuvent être différents. (Par exemple, il faudrait 128 corrections pour de la philosophie, 13 pour des mathématiques pour obtenir un résultat objectif, ce qui est infaisable dans le milieu scolaire). Modification du système d’évaluation : L’évaluation continue supprime un certain nombre de biais liés à l’auteur de la production (moment de la journée, moral et condition du jour etc.) mais tous les biais provenant des effets d’assimilation sont mis en jeu. On neutralise les inconvénients des deux systèmes en alliant le contrôle continu et l’examen final. |