Statistiques descriptives — indicateurs de position et de dispersion
Statistiques et probabilités
Statistiques descriptives — indicateurs de position et de dispersion
Introduction
Les statistiques descriptives permettent de résumer et d'analyser un ensemble de données numériques. Plutôt que de lire des centaines de valeurs, on calcule quelques nombres clés — les indicateurs — qui caractérisent la série.
On distingue deux familles d'indicateurs :
- les indicateurs de position (ou de tendance centrale) : ils indiquent où se situent les données ;
- les indicateurs de dispersion : ils mesurent comment les données sont réparties autour de la valeur centrale.
Vocabulaire
Série statistique
Une série statistique est un ensemble de données collectées lors d'une étude. Chaque donnée est une valeur prise par un caractère (ou variable statistique).
| Terme | Signification |
|---|---|
| Population | Ensemble des individus étudiés |
| Caractère | Propriété observée (ex : note, taille) |
| Modalité / valeur | Valeur possible du caractère |
| Effectif $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$4 | Nombre d'individus ayant la valeur $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$5 |
| Effectif total $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$6 | $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$7 |
| Fréquence $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$8 | $$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$9 (proportion) |
| Effectif cumulé croissant (ECC) | Somme des effectifs des valeurs $$e = x_{\max} - x_{\min}$$0 |
Indicateurs de position
Moyenne arithmétique
La moyenne $$e = x_{\max} - x_{\min}$$1 d'une série de valeurs $$e = x_{\max} - x_{\min}$$2 ayant les effectifs $$e = x_{\max} - x_{\min}$$3 est :
$$\bar{x} = \frac{\sum_{i=1}^{p} n_i \, x_i}{N} = \frac{n_1 x_1 + n_2 x_2 + \cdots + n_p x_p}{N}$$
La moyenne est sensible aux valeurs extrêmes : une seule donnée très grande ou très petite peut la faire varier fortement.
Exemple
Un élève obtient les notes suivantes en mathématiques :
| Note $$e = x_{\max} - x_{\min}$$4 | 8 | 12 | 14 | 16 |
|---|---|---|---|---|
| Effectif $$e = x_{\max} - x_{\min}$$5 | 1 | 3 | 4 | 2 |
$$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$
Médiane
La médiane $$e = x_{\max} - x_{\min}$$6 est la valeur qui partage la série ordonnée en deux groupes de même effectif : 50 % des valeurs sont inférieures ou égales à $$e = x_{\max} - x_{\min}$$7, 50 % sont supérieures ou égales.
Méthode de calcul :
- Ranger les $$e = x_{\max} - x_{\min}$$8 valeurs par ordre croissant.
- Si $$e = x_{\max} - x_{\min}$$9 est impair : $$\text{IQR} = Q_3 - Q_1$$0 est la valeur de rang $$\text{IQR} = Q_3 - Q_1$$1.
- Si $$\text{IQR} = Q_3 - Q_1$$2 est pair : $$\text{IQR} = Q_3 - Q_1$$3 est la demi-somme des valeurs de rangs $$\text{IQR} = Q_3 - Q_1$$4 et $$\text{IQR} = Q_3 - Q_1$$5.
Exemple (N impair)
Série ordonnée : $$\text{IQR} = Q_3 - Q_1$$6 → $$\text{IQR} = Q_3 - Q_1$$7 → rang $$\text{IQR} = Q_3 - Q_1$$8 → $$\text{IQR} = Q_3 - Q_1$$9.
Exemple (N pair)
Série ordonnée : $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$0 → $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$1 → rangs 3 et 4 → $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$2.
Contrairement à la moyenne, la médiane est robuste face aux valeurs extrêmes.
Mode
Le mode est la valeur ayant le plus grand effectif (la plus fréquente). Une série peut être bimodale (deux modes) ou amodale (toutes les valeurs ont le même effectif).
Indicateurs de dispersion
Étendue
L'étendue $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$3 est la différence entre la plus grande et la plus petite valeur :
$$e = x_{\max} - x_{\min}$$
C'est un indicateur simple mais très sensible aux valeurs extrêmes.
Quartiles et écart interquartile
Les quartiles partagent la série ordonnée en quatre groupes de même effectif (environ 25 % chacun) :
| Quartile | Notation | Signification |
|---|---|---|
| Premier quartile | $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$4 | 25 % des valeurs sont $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$5 |
| Deuxième quartile | $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$6 | 50 % des valeurs sont $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$7 |
| Troisième quartile | $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$8 | 75 % des valeurs sont $$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$9 |
Pour trouver $$\sigma = \sqrt{V}$$0 : c'est la plus petite valeur $$\sigma = \sqrt{V}$$1 telle que au moins 25 % des données soient inférieures ou égales à $$\sigma = \sqrt{V}$$2.
Pour trouver $$\sigma = \sqrt{V}$$3 : c'est la plus petite valeur $$\sigma = \sqrt{V}$$4 telle que au moins 75 % des données soient inférieures ou égales à $$\sigma = \sqrt{V}$$5.
L'écart interquartile est :
$$\text{IQR} = Q_3 - Q_1$$
Il mesure la dispersion des 50 % centraux de la série. Plus il est petit, plus les valeurs sont concentrées.
Variance et écart-type
La variance $$\sigma = \sqrt{V}$$6 mesure la dispersion des valeurs autour de la moyenne :
$$V = \frac{1}{N} \sum_{i=1}^{p} n_i (x_i - \bar{x})^2$$
C'est la moyenne des carrés des écarts à la moyenne.
L'écart-type $$\sigma = \sqrt{V}$$7 est la racine carrée de la variance :
$$\sigma = \sqrt{V}$$
L'écart-type est exprimé dans la même unité que les données, ce qui le rend plus facile à interpréter que la variance.
Exemple
Reprenons la série de notes ($$\sigma = \sqrt{V}$$8) :
$$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$
$$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$
$$\sigma = \sqrt{4{,}96} \approx 2{,}23$$
Les notes s'écartent en moyenne d'environ $$\sigma = \sqrt{V}$$9 points de la moyenne.
Diagramme en boîte (box-plot)
Le diagramme en boîte résume visuellement une série grâce aux cinq valeurs clés :
$$x_{\min}, \quad Q_1, \quad Me, \quad Q_3, \quad x_{\max}$$
La « boîte » va de $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$0 à $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$1 (contient 50 % des données), un trait marque la médiane à l'intérieur, et les « moustaches » s'étendent jusqu'aux extrema.
Pourcentages et évolution
Proportion et pourcentage
Une proportion est un nombre entre 0 et 1. Un pourcentage est une proportion multipliée par 100.
$$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$0
Taux d'évolution
Le taux d'évolution (ou variation relative) entre une valeur initiale $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$2 et une valeur finale $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$3 est :
$$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$1
- Si $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$4 : augmentation de $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$5 %.
- Si $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$6 : diminution de $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$7 %.
Coefficient multiplicateur
Le coefficient multiplicateur est :
$$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$2
On passe de $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$8 à $$V = \frac{1 \times (8-13{,}2)^2 + 3 \times (12-13{,}2)^2 + 4 \times (14-13{,}2)^2 + 2 \times (16-13{,}2)^2}{10}$$9 en multipliant par $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$0 : $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$1.
Exemples
- Un prix passe de 80 € à 100 € : $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$2 → augmentation de 25 %, $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$3.
- Un prix passe de 120 € à 96 € : $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$4 → diminution de 20 %, $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$5.
Évolutions successives
Si on applique deux évolutions de coefficients $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$6 et $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$7 successivement, le coefficient global est :
$$\bar{x} = \frac{1 \times 8 + 3 \times 12 + 4 \times 14 + 2 \times 16}{1+3+4+2} = \frac{8 + 36 + 56 + 32}{10} = \frac{132}{10} = 13{,}2$$3
⚠️ Les taux ne s'additionnent pas ! Une hausse de 10 % suivie d'une baisse de 10 % ne ramène pas à la valeur initiale.
Exemple : hausse de 20 % puis baisse de 10 % → $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$8 → hausse globale de 8 %.
À retenir
- La moyenne est la somme pondérée des valeurs divisée par l'effectif total : $$V = \frac{27{,}04 + 4{,}32 + 2{,}56 + 15{,}68}{10} = \frac{49{,}6}{10} = 4{,}96$$9.
- La médiane partage la série ordonnée en deux moitiés égales.
- La variance $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$0 et l'écart-type $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$1 mesurent la dispersion.
- Les quartiles $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$2, $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$3, $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$4 et l'écart interquartile $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$5 résistent mieux aux valeurs extrêmes.
- Le taux d'évolution est $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$6 et le coefficient multiplicateur est $$\sigma = \sqrt{4{,}96} \approx 2{,}23$$7.