La régression logistique permet de modéliser une variable réponse Y binaire ou polychotomique (K ≥ 2 classes) à partir d’une matrice de P variables explicatives X1, X2, ... XP quantitatives ou qualitatives.
La force de la régression logistique réside en la forme de la fonction lien utilisée (le logit ou le probit) et qui permet une modélisation de forme sigmoïdale incluant ainsi la notion de pente influencée par la fréquence des observations, sous forme de pondérations par secteur, lorsque nous passons d’un secteur à l’autre en fonction de la classe décrite par la réponse Y.
A ce titre, elle demeure très prisée du fait des nombreux indicateurs permettant de qualifier le modèle construit. Parmi ces indicateurs, les odds ratios ou rapports de côte en sont les plus populaires et restent très souvent utilisés en recherche clinique par exemple.
Le modèle associé à la régression logistique s’exprime au travers de la formule suivante,
P(Y) = β0 + β1 X 1 + ... + βP X P + ε
La plus populaire de toutes les méthodes d'estimation des coefficients β demeure celle du maximum de vraisemblance.
Le pseudo R2 (ou coefficient de détermination) offre un indicateur statistique de la modélisation du modèle et notamment de sa capacité à coller aux données réelles utilisées pour le construire. Le R2 varie entre [0,1] et plus il s’approche de sa borne supérieure, meilleur est le modèle.
Le test régression logistique binaire permet de tester la validité du modèle dans sa globalité. Ce test permet, en outre, de vérifier l'incidence de telle ou telle variable sur le modèle (le modèle est-il meilleur si l'on ne prend pas en compte la variable Xi ? comme pour le test de régression linéaire multiple).
Le test régression logistique multinomiale permet, comme dans le cas binaire, de tester la validité du modèle dans sa globalité. Cependant, il permet également de vérifier la validité du modèle utilisé pour chacune des modalités Y.
Comme nous pouvons le voir sur les images ci-dessus, la régression logistique appliquée à une variable nominale non binaire conduit à autant de régressions dichotomiques que cette variable présente de modalités, la modalité Y de valeur la plus basse étant prise comme référence.
Par ailleurs, bien que la validité globale du modèle puisse être remise en question (p-valeur globale trop élevée) imaginons que les modalités Y soient des partis politiques (1 = rose, 2 = violet, 3 = jaune, 4 = lavande). Y=1 est le parti rose majoritaire (la référence). la variable X2 est l'âge (ou la tranche d'âge). L'odd-ratio de la variable X2 (âge) sur la modalité Y = 3 (parti jaune) conduit à OR = 0,134 = e-2.0109942, ce qui peut s'interpréter comme "pour une augmentation de 1 du facteur X2 (cad pour chaque année en plus), les chances de rester dans la modalité Y = 1 (parti majoritaire) sont de 7,5 (1/0,134) contre 1 de passer dans la modalité Y = 3 (parti jaune)". L'interprétation de ce genre de résultats est toujours délicate. Dans cet exemple fictif, ou bien l'âge est apparemment un facteur favorisant le statu quo ou bien le parti jaune attire surtout les jeunes.