Un plan factoriel est un plan d'expérience où l’on fait, dans une même expérience, l’étude simultanée de deux ou plusieurs variables indépendantes (facteurs), afin de connaître le rôle propre de chaque variable indépendante, leur importance relative et leur interaction.
Le terme facteur est utilisé dans le même sens que les termes traitement ou variable indépendante. Le traitement réfère toujours à un traitement expérimental qui peut être ou ne pas être un traitement thérapeutique.
Un plan factoriel est un plan d’expérience dans lequel toutes les combinaisons possibles des niveaux de tous les facteurs sont représentées.
Supposons par exemple que l’on veuille évaluer, dans une même expérience, l’effet de trois dosages différents d’un médicament donné sur le comportement de deux catégories de patients (dépressifs et schizophrènes). Dans ce cas, on utilisera un plan factoriel à deux facteurs: Dosages (dose 1, dose 2, dose 3) par Catégories (dépressifs, schizophrènes). Le plan complet comprendra six cellules, tel qu’illustré ici :
Dosage (facteur A) | ||||
---|---|---|---|---|
1 | 2 | 3 | ||
Catégorie (facteur B) | Dépressifs | groupe 1 | groupe 2 | groupe 3 |
Schizophrènes | groupe 4 | groupe 5 | groupe 6 |
Chaque cellule du plan représente une combinaison des deux facteurs : Dosage × Catégorie. On peut utiliser (comme ici) des groupes de sujets différents pour chacun des dosages, et dans ce cas, on parle d’un plan factoriel à groupes indépendants. Si on utilise, pour chaque catégorie de patient, le même groupe de sujets sous chacun des dosages, on parle d’un plan factoriel à mesures répétées sur le facteur Dosage.
En général, les modèles de régression sont construits dans le but d'expliquer (ou prédire, selon la perspective de l’analyse) la variance d’un phénomène (variable dépendante) à l’aide d’une combinaison de facteurs explicatifs (variables indépendantes).
Dans le cas de la régression linéaire multiple, la variable dépendante est toujours une variable continue tandis que les variables indépendantes peuvent être continues ou catégorielles. La régression linéaire est appelée multiple lorsque le modèle est composé d'au moins deux variables indépendantes.
Dans le cas de la régression logistique, la variable dépendante est une variable qualitative tandis que les variables indépendantes peuvent être continues ou catégorielles.
À la différence de la régression linéaire (où la variable à expliquer est une variable quantitative), la régression logistique s’applique lorsque la variable à expliquer (Y) est qualitative. Dans la recherche biomédicale, il est très fréquent de rencontrer de telles variables, le plus souvent de type binaire comme par exemple la présence (ou l’absence) d’une maladie, d’une récidive ou d’une complication. Les variables explicatives (Xi) peuvent être, quant à elles, qualitatives ou quantitatives (âge, taux de cholestérol, signe astrologique, antécédants familliaux, ...). Ces variables indépendantes sont susceptibles d’influencer la survenue ou non de la maladie, de la récidive ou de la complication.
Dans le cas d’une variable explicative qualitative, une propriété très intéressante de la régression logistique est qu’elle permet d’estimer un odds ratio (OR) qui fournit une information sur la force et le sens de l’association entre la variable explicative (Xi) et la variable à expliquer (Y). L’OR (ou rapport des cotes), est une mesure de dépendance entre deux variables, il est toujours positif et compris entre 0 et +∞. Lorsqu’il vaut 1, les deux variables sont indépendantes. Au contraire, plus l’OR est proche de 0 ou de +∞, plus les variables sont liées entre elles. Si l’OR n’est pas un résultat aussi intuitif que le risque relatif, il présente l’avantage d’être utilisable quel que soit le design expérimental (cohorte ou cas témoin). Qui plus est, si la maladie étudiée est rare (prévalence inférieure à 5–10 %), l’OR devient une bonne approximation du risque relatif. En pratique, si l’OR est supérieur à 1, on parle de facteur de risque, et si l’OR est inférieur à 1, on parle de facteur protecteur. Par exemple en pratique, vis-à-vis d'une variable dépendante Y (malade/pas malade), l'OR d'une variable indépendante X représente le nombre de chances (en plus ou en moins) de tomber malade si X augmente d'une unité.
Dans le cas où nous souhaitons étudier plusieurs variables explicatives Xi et connaître le « poids » respectif de chacune de ces variables, un ajustement est alors nécessaire. La régression logistique et linéaire muliple sont des méthodes permettant de réaliser un tel ajustement. Cet ajustement consiste à individualiser « l’effet propre » de la variable explicative Xi des « effets parasites » induits par d’autres variables influençant aussi la variable à expliquer (Y). Cela permet ainsi de contrôler l’effet de possibles facteurs de confusion. De plus, l’ajustement permet de diminuer le bruit de fond induit par ces covariables et d’améliorer la précision de l’estimation.