Nature des variables


Supposons que je veuille étudier la consommation de chocolat chez les étudiants (Variable dépendante = « consommation de chocolat »), et plus précisément, je veux savoir si les Littéraires mangent plus (ou moins) de chocolat que les Scientifiques (Variable indépendante = « littéraire ou scientifique »).

Il est très important de considérer la nature des données (observations) que l'on va tester. D'elle dépend la nature des opérations possibles et donc des statistiques utilisables dans chaque situation.

Les observations peuvent être soit quantitatives soit qualitatives (nominales ou ordianles).

Les données quantitatives comprennent les dénombrements (ou comptages) et les mesures (ou mensurations).

Dans le cas des dénombrements, la caractéristique étudiée est une variable discrète ou discontinue, ne pouvant prendre que des valeurs entières non négatives (nombre de fruits par rameau, nombre de pétales par fleurs, nombre de tête de bétail..). Il suffit de compter le nombre d'individus affectés par chacune des valeurs (fréquences) de la variable.

Exemple : nombre de pétales par fleurs dans un échantillon de 1000 fleurs de Renonculus repens
Nombre de pétales par fleur    34567
Nombre de fleurs (Fréquences)    1  20959  18    2

Dans le cas des mesures, la variable est de nature continue (hauteur, poids, surface, concentration, température..). Les valeurs possibles sont illimités mais du fait des méthodes de mesures et du degré de précision de l'appareil de mesure, les données varient toujours de façon discontinue.

Les mensurations peuvent être réalisées dans deux échelles de mesure : l'échelle de rapport et l'échelle d'intervalle. Elles sont manipulables suivant les opérations de l'arithmétique.

L'échelle de rapport est caractérisée par l'existence d'un zéro absolu et de distances de taille connue entre deux valeurs quelconque de l'échelle. C'est le cas de la mesure de la masse ou du poids. En effet, les échelles de mesure des poids en livres ou en grammes ont toutes deux un zéro absolu et le rapport entre deux poids quelconque d'une échelle est indépendant de l'unité de mesure (le rapport des poids de deux objets mesurés en livres et celui de ces mêmes objets mesurés en grammes sont identiques). Dans l'échelle d'intervalle, le point zéro et l'unité de mesure sont arbitraires mais les distances entre deux valeurs quelconques de l'échelle sont de taille connue. C'est le cas de la mesure de la température (échelle Fahrenheit ou Celsius). Ces deux échelles sont compatibles avec l'utilisation de tests paramétriques.

Les données qualitatives peuvent être assimilées au cas des variables discontinues, en supposant que les différentes variantes du caractère qualitatif sont rangées dans un ordre correspondant par exemple à la suite des nombres entiers positifs (différentes couleurs, différents degrés d'infection...).

Les données qualitatives peuvent être réalisées dans deux échelles de mesure : échelle ordinale et l'échelle nominale. Ces données ne sont pas manipulables par l'arithmétique.

Dans l'échelle ordinale (de rangement), il existe une certaine relation entre les objets du type plus grand que, supérieur à, plus difficile que, préférée à ... Exemple : Les nombres de candidats à un examen obtenant les degrés A, B, C. Le degré A est meilleur que le degré B, lui-même meilleur que le degré C. Une transformation ne changeant pas l'ordre des objets est admissible. La statistique la plus appropriée pour décrire la tendance centrale des données est la médiane.

Dans l'échelle nominale, les nombres ou symboles identifient les groupes auxquels divers objets appartiennent. C'est le cas des numéros d'immatriculation des voitures ou de sécurité sociale (chaînes de caractères). Le même nombre peut être donné aux différentes personnes habitant le même département ou de même sexe constituant des sous-classes. Les symboles désignant les différentes sous-classes dans l'échelle nominale peuvent être modifiés sans altérer l'information essentielle de l'échelle. Les seules statistiques descriptives utilisables dans ce cas sont le mode, la fréquence... et les tests applicables seront centrés sur les fréquences des diverses catégories.

Nature des variables dépendantes

Les échelles nominale et ordinale qualitative ne permettent que l'utilisation de tests non paramétriques (car ça n'aurait aucun sens de calculer, par exemple, le numéro de sécurité sociale moyen ou la couleur des yeux moyenne).

Pour évaluer un traitement à partie des données opérées, il faut donc déterminer le type d'échelle de mesure utilisé. En résumé, il existe trois niveaux de mesure. Ma variable dépendante est-elle :

Si je décide de noter simplement l'existence ou l'absence de chocolat selon les individus (je note « oui », ou « non », sans considérer la quantité) alors la variable dépendante est devenue « nominale » (binaire).

Dans le cas où je m'intéresse au type de chocolat (« blanc », « au lait » ou « noir »), j'ai également affaire à une variable « nominale » (non binaire).

Par contre, je peux décider de comptabiliser le poids consommé de chocolat (en gramme) par jour, et par individus. Par exemple on peut aussi estimer le temps mis pour manger toute une tablette de chocolat. Dans ces deux cas nous avons affaire à une variable quantitative. Remarquons qu'une variable quantitative est toujours ordinale.

De même si l'on demande à notre consommateur de chocolat d'estimer de façon numérique sa dépendance (par ex . en utilisant une échelle de type : 0 = pas du tout, 1 = un peu, 2 = assez souvent, etc.). Ou encore, on obtient un score après épreuve qui indique l'état du consommateur, après ingestion de toute la tablette. (calcul par cumul des événements psychophysiologiques - nausée, anxiété, etc. - cités dans un questionnaire). C'est ici une échelle « ordinale » (qualitative).

En tout cas selon les différentes échelles, on utilisera des tests appropriés.

Nature de la variable indépendante

Pour faire simple, la variable indépendante peut être quantitative (nominale/ordinale) ou qualitative

Une variable indépendante qualitative nous orientera vers un test d'homogénéité (conformité ou comparaison) ou d'adéquation, tandis qu'une variable indépendante quantitative nous orientera vers un test d'association (corrélation).

Le test χ² (chi²) est un cas particulier de test d'homogénéité qui peut également être vu comme un test d'association pour variables nominales (bien qu'en toute rigueur, ce soit un test d'homogénéité).

Par exemple, ce test sera utilisé pour déterminer si la couleur des yeux présente un lien significatif avec le groupe sanguin. Nous pouvons interpréter cette situation de deux manières équivalentes (le même test χ² de comparaison avec k échantillons sera utilisé dans les deux cas) :
- Y a-t-il une corrélation entre la couleur des yeux et le groupe sanguin ?
- Le groupe sanguin dépend-il de la couleur des yeux ?

< Précédent   Retour à la table des matières   Suivant >