Échantillonnage et simulation

Introduction

L'échantillonnage consiste à prélever une partie (un échantillon) d'une population pour en déduire des informations sur l'ensemble. La simulation utilise l'informatique pour reproduire un grand nombre de fois une expérience aléatoire afin d'estimer des probabilités.

1. Échantillon et population

Définitions

La population est l'ensemble complet des individus étudiés.
Un échantillon de taille $n$ est un sous-ensemble de $n$ individus prélevés dans la population.

Remarque : un échantillon doit être le plus représentatif possible de la population, ce qui suppose un prélèvement aléatoire.

Caractère étudié

On observe un caractère (ou variable) sur l'échantillon :

Quantitatif : une valeur numérique (taille, note, âge…)
Qualitatif : une catégorie (couleur, oui/non…)

2. Fréquence observée et probabilité

Fréquence

Si dans un échantillon de taille $n$, un événement $A$ se réalise $k$ fois, la fréquence observée est :

$$f = \frac{k}{n}$$

Loi des grands nombres (version intuitive)

Lorsque la taille $$f \xrightarrow[n \to +\infty]{} P(A)$$0 de l'échantillon augmente, la fréquence observée $$f \xrightarrow[n \to +\infty]{} P(A)$$1 se rapproche de la probabilité théorique $$f \xrightarrow[n \to +\infty]{} P(A)$$2.

$$f \xrightarrow[n \to +\infty]{} P(A)$$

Exemple : On lance une pièce équilibrée 10 fois, puis 100 fois, puis 10 000 fois. La fréquence de « Pile » se rapproche de $$f \xrightarrow[n \to +\infty]{} P(A)$$3.

Nombre de lancers	10	100	1 000	10 000
Fréquence de Pile (exemple)	0,40	0,47	0,503	0,4998

3. Fluctuation d'échantillonnage

Observation

Si on prélève plusieurs échantillons de même taille $$f \xrightarrow[n \to +\infty]{} P(A)$$4, les fréquences observées $$f \xrightarrow[n \to +\infty]{} P(A)$$5 varient d'un échantillon à l'autre. C'est la fluctuation d'échantillonnage.

Intervalle de fluctuation au seuil de 95 %

Pour une probabilité théorique $$f \xrightarrow[n \to +\infty]{} P(A)$$6 et un échantillon de taille $$f \xrightarrow[n \to +\infty]{} P(A)$$7 (avec $$f \xrightarrow[n \to +\infty]{} P(A)$$8, $$f \xrightarrow[n \to +\infty]{} P(A)$$9), la fréquence observée $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$0 appartient « en général » à l'intervalle :

$$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$

au seuil de 95 % (c'est-à-dire dans 95 % des échantillons en moyenne).

Exemple : On sait qu'un dé est équilibré ($$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$1). Pour $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$2 lancers :

$$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$

Si la fréquence observée d'une face est en dehors de cet intervalle, on peut mettre en doute l'équilibre du dé.

4. Prise de décision

L'intervalle de fluctuation sert à tester une hypothèse :

On suppose que $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$3 est la probabilité théorique (hypothèse).
On observe la fréquence $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$4 sur un échantillon de taille $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$5.
Si $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$6, on rejette l'hypothèse au seuil de 95 %.
Si $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$7, on ne rejette pas l'hypothèse (mais on ne la prouve pas).

Exemple : Un fabricant affirme que 5 % de ses pièces sont défectueuses ($$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$8). Sur un lot de 400 pièces, on en trouve 32 défectueuses, soit $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$9.

$$I = \left[ 0{,}05 - \frac{1}{\sqrt{400}} \;; \; 0{,}05 + \frac{1}{\sqrt{400}} \right] = [0{,}00 \;; \; 0{,}10]$$

Comme $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$0, on ne rejette pas l'affirmation du fabricant.

5. Simulation avec Python

La simulation permet d'estimer une probabilité en reproduisant l'expérience un grand nombre de fois.

Outils Python

import random

# Lancer un dé
random.randint(1, 6)

# Tirage pile/face (0 = Pile, 1 = Face)
random.randint(0, 1)

# Choisir un élément dans une liste
random.choice(["rouge", "bleu", "vert"])

Exemple : estimer $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$1 avec deux dés

import random

nb_simulations = 10000
compteur = 0

for _ in range(nb_simulations):
    de1 = random.randint(1, 6)
    de2 = random.randint(1, 6)
    if de1 + de2 == 7:
        compteur += 1

frequence = compteur / nb_simulations
print(f"Fréquence observée : {frequence}")
# Résultat attendu : environ 0.167 (≈ 1/6)

Exemple : simuler la fluctuation d'échantillonnage

import random

p = 0.5         # probabilité théorique (pièce équilibrée)
n = 100         # taille de l'échantillon
nb_echantillons = 50

for i in range(nb_echantillons):
    nb_piles = sum(random.randint(0, 1) for _ in range(n))
    f = nb_piles / n
    dans_intervalle = abs(f - p) <= 1 / n**0.5
    print(f"Échantillon {i+1} : f = {f:.2f} {'✓' if dans_intervalle else '✗'}")

6. Lien entre statistiques et probabilités

Statistiques	Probabilités
Fréquence observée $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$2	Probabilité théorique $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$3
On observe des données	On modélise le hasard
Résultats dépendent de l'échantillon	Valeurs « exactes » du modèle

La loi des grands nombres fait le pont : quand $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$4 est grand, les statistiques rejoignent le modèle probabiliste.

À retenir

Un échantillon est un sous-ensemble de la population ; sa fréquence $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$5.
Loi des grands nombres : $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$6 quand $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$7.
Fluctuation : plusieurs échantillons donnent des fréquences différentes.
Intervalle de fluctuation (seuil 95 %) : $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$8.
On rejette l'hypothèse si $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$9 ; on ne rejette pas si $$I = \left[ 0{,}05 - \frac{1}{\sqrt{400}} \;; \; 0{,}05 + \frac{1}{\sqrt{400}} \right] = [0{,}00 \;; \; 0{,}10]$$0.
La simulation en Python (random) permet d'estimer des probabilités expérimentalement.

Échantillonnage et simulation

Échantillonnage et simulation

Introduction

1. Échantillon et population

Définitions

Caractère étudié

2. Fréquence observée et probabilité

Fréquence

Loi des grands nombres (version intuitive)

3. Fluctuation d'échantillonnage

Observation

Intervalle de fluctuation au seuil de 95 %

4. Prise de décision

5. Simulation avec Python

Outils Python

Exemple : estimer $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$1 avec deux dés

Exemple : simuler la fluctuation d'échantillonnage

6. Lien entre statistiques et probabilités

À retenir

Accédez à l'intégralité de cette leçon

Débloquez tout ScienceLycée