Devis expérimentaux : il est temps de renoncer à l’ANOVA

Aïna Chalabaev

Université Grenoble Alpes, Laboratoire SENS


(source image: https://static.pexels.com/photos/359757/pexels-photo-359757.jpeg)

Dans une lettre publiée dans la revue Neuroscience & Biobehavioral Reviews en 2016, Matthieu Boisgontier et Boris Cheval incitent les chercheurs à limiter l’utilisation de l’ANOVA pour analyser les résultats de leurs études expérimentales, car celle-ci présente des limites importantes.

Dans ce type de devis, les participants répondent dans différentes conditions expérimentales, qui représentent chacune une modalité du facteur étudié. Le facteur est considéré à effets fixes : il a un nombre fini de modalités, toutes représentées dans le devis. Les participants constituent un effet aléatoire : ils ne représentent qu’un échantillon d’une population plus large.

Les procédures d’analyse de la variance (ANOVA et t-tests) consistent à modéliser les réponses des participants au facteur manipulé, en estimant la différence entre les moyennes des conditions (paramètre fixe du modèle), ainsi que l’incertitude entourant cette différence, c’est-à-dire la variabilité des réponses des participants autour de la moyenne de leur groupe (paramètre aléatoire du modèle).

Le but est alors de déterminer si la différence entre les moyennes des conditions, étant donné la variance des participants, est suffisamment large pour en déduire qu’elle serait observée dans d’autres échantillons (Judd, Westfall, & Kenny, 2017).

Le problème est que les devis expérimentaux impliquent souvent plus d’un effet aléatoire. Imaginons que vous souhaitiez tester l’effet de l’anxiété sur la performance motrice, en présentant aux participants une liste d’images, qui sont soit anxiogènes (condition ‘anxiété’), soit neutres (condition contrôle). Il s’agit alors de tester si les résultats sont généralisables non seulement à d’autres échantillons de participants, mais aussi à d’autres échantillons de stimuli (i.e., d’autres listes d’images). En d’autres termes, les participants ne constituent pas le seul effet aléatoire : c’est aussi le cas du facteur étudié. On trouve ce type de situations dans de nombreuses études, par exemple, lorsque vous souhaitez tester l’effet de différentes intensités d’exercice sur des critères divers.

Or, en utilisant les procédures d’analyse de la variance classiques, on ignore ce second effet aléatoire. Cela s’illustre par la pratique consistant à agréger les scores d’un participant sur l’ensemble des essais d’une condition expérimentale, pour aboutir à un seul score moyenné par condition.

Les conséquences de cet « oubli » ne sont pas négligeables, puisqu’il augmente le risque de commettre une erreur de première espèce, c’est-à-dire de déclarer un effet alors qu’il n’existe pas en réalité. Pourquoi ? Parce qu’en considérant le facteur étudié comme un effet fixe, on ne prend pas en compte le biais d’échantillonnage : si on avait utilisé un autre échantillon de stimuli, les résultats auraient été un peu différents. La différence entre les moyennes des conditions expérimentales estimée est donc due non seulement au facteur manipulé, mais aussi à ce biais. En ne débarrassant pas cette estimation de sa variance d’échantillonnage, on surestime alors l’effet du facteur (Bressoux, 2007).

Apparus dans les années 1980 en sciences de l’éducation, les modèles multiniveaux apportent une solution à ce problème, en prenant en compte cette seconde source de variation. Appelée également modèle mixte linéaire, modèle linéaire hiérarchique, ou modèle à coefficients aléatoires, cette procédure traite à la fois les participants et les conditions expérimentales comme des effets aléatoires. Elle permet donc de tester si les résultats sont généralisables à d’autres échantillons de participants, mais aussi à d’autres échantillons de conditions. Elle diminue ainsi le risque d’effectuer une erreur de première espèce. De plus, ces modèles permettent de conserver le maximum d’informations (les réponses à chaque essai), et ils peuvent être utilisés en présence de données incomplètes, lorsqu’un participant n’a pas répondu à tous les essais d’une condition par exemple.

Malgré les avantages des modèles multiniveaux sur les procédures classiques d’analyse de la variance, ceux-ci restent sous-utilisés. Matthieu Boisgontier et Boris Cheval ont, dans leur article de 2016, calculé le ratio entre l’utilisation de modèles linéaires mixtes et d’ANOVA en psychologie, biologie, médecine, et neurosciences. Ils ont observé un ratio proche dans les trois premiers champs, avec un maximum de 39% en médecine, alors qu’en neurosciences, le ratio s’élevait à 14% seulement. Comme le note les auteurs, il devient urgent de changer ses habitudes en matière d’analyses statistiques, afin d’améliorer la reproductibilité de nos recherches.

 

Mots-clés
Méthodologie, statistiques, ANOVA

 

L’auteur du billet

Aïna Chalabaev est MCU-HDR en STAPS (psychologie) et directrice du laboratoire SENS. Elle étudie les déterminants motivationnels de l’activité physique chez des populations stigmatisées dans ce domaine (seniors, femmes, personnes en surpoids, personnes atteintes de maladies chroniques).