Échantillonnage et simulation
Probabilités et échantillonnage
Échantillonnage et simulation
Introduction
L'échantillonnage consiste à prélever une partie (un échantillon) d'une population pour en déduire des informations sur l'ensemble. La simulation utilise l'informatique pour reproduire un grand nombre de fois une expérience aléatoire afin d'estimer des probabilités.
1. Échantillon et population
Définitions
- La population est l'ensemble complet des individus étudiés.
- Un échantillon de taille $n$ est un sous-ensemble de $n$ individus prélevés dans la population.
Remarque : un échantillon doit être le plus représentatif possible de la population, ce qui suppose un prélèvement aléatoire.
Caractère étudié
On observe un caractère (ou variable) sur l'échantillon :
- Quantitatif : une valeur numérique (taille, note, âge…)
- Qualitatif : une catégorie (couleur, oui/non…)
2. Fréquence observée et probabilité
Fréquence
Si dans un échantillon de taille $n$, un événement $A$ se réalise $k$ fois, la fréquence observée est :
$$f = \frac{k}{n}$$
Loi des grands nombres (version intuitive)
Lorsque la taille $$f \xrightarrow[n \to +\infty]{} P(A)$$0 de l'échantillon augmente, la fréquence observée $$f \xrightarrow[n \to +\infty]{} P(A)$$1 se rapproche de la probabilité théorique $$f \xrightarrow[n \to +\infty]{} P(A)$$2.
$$f \xrightarrow[n \to +\infty]{} P(A)$$
Exemple : On lance une pièce équilibrée 10 fois, puis 100 fois, puis 10 000 fois. La fréquence de « Pile » se rapproche de $$f \xrightarrow[n \to +\infty]{} P(A)$$3.
| Nombre de lancers | 10 | 100 | 1 000 | 10 000 |
|---|---|---|---|---|
| Fréquence de Pile (exemple) | 0,40 | 0,47 | 0,503 | 0,4998 |
3. Fluctuation d'échantillonnage
Observation
Si on prélève plusieurs échantillons de même taille $$f \xrightarrow[n \to +\infty]{} P(A)$$4, les fréquences observées $$f \xrightarrow[n \to +\infty]{} P(A)$$5 varient d'un échantillon à l'autre. C'est la fluctuation d'échantillonnage.
Intervalle de fluctuation au seuil de 95 %
Pour une probabilité théorique $$f \xrightarrow[n \to +\infty]{} P(A)$$6 et un échantillon de taille $$f \xrightarrow[n \to +\infty]{} P(A)$$7 (avec $$f \xrightarrow[n \to +\infty]{} P(A)$$8, $$f \xrightarrow[n \to +\infty]{} P(A)$$9), la fréquence observée $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$0 appartient « en général » à l'intervalle :
$$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$
au seuil de 95 % (c'est-à-dire dans 95 % des échantillons en moyenne).
Exemple : On sait qu'un dé est équilibré ($$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$1). Pour $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$2 lancers :
$$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$
Si la fréquence observée d'une face est en dehors de cet intervalle, on peut mettre en doute l'équilibre du dé.
4. Prise de décision
L'intervalle de fluctuation sert à tester une hypothèse :
- On suppose que $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$3 est la probabilité théorique (hypothèse).
- On observe la fréquence $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$4 sur un échantillon de taille $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$5.
- Si $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$6, on rejette l'hypothèse au seuil de 95 %.
- Si $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$7, on ne rejette pas l'hypothèse (mais on ne la prouve pas).
Exemple : Un fabricant affirme que 5 % de ses pièces sont défectueuses ($$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$8). Sur un lot de 400 pièces, on en trouve 32 défectueuses, soit $$I = \left[ p - \frac{1}{\sqrt{n}} \;; \; p + \frac{1}{\sqrt{n}} \right]$$9.
$$I = \left[ 0{,}05 - \frac{1}{\sqrt{400}} \;; \; 0{,}05 + \frac{1}{\sqrt{400}} \right] = [0{,}00 \;; \; 0{,}10]$$
Comme $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$0, on ne rejette pas l'affirmation du fabricant.
5. Simulation avec Python
La simulation permet d'estimer une probabilité en reproduisant l'expérience un grand nombre de fois.
Outils Python
import random
# Lancer un dé
random.randint(1, 6)
# Tirage pile/face (0 = Pile, 1 = Face)
random.randint(0, 1)
# Choisir un élément dans une liste
random.choice(["rouge", "bleu", "vert"])
Exemple : estimer $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$1 avec deux dés
import random
nb_simulations = 10000
compteur = 0
for _ in range(nb_simulations):
de1 = random.randint(1, 6)
de2 = random.randint(1, 6)
if de1 + de2 == 7:
compteur += 1
frequence = compteur / nb_simulations
print(f"Fréquence observée : {frequence}")
# Résultat attendu : environ 0.167 (≈ 1/6)
Exemple : simuler la fluctuation d'échantillonnage
import random
p = 0.5 # probabilité théorique (pièce équilibrée)
n = 100 # taille de l'échantillon
nb_echantillons = 50
for i in range(nb_echantillons):
nb_piles = sum(random.randint(0, 1) for _ in range(n))
f = nb_piles / n
dans_intervalle = abs(f - p) <= 1 / n**0.5
print(f"Échantillon {i+1} : f = {f:.2f} {'✓' if dans_intervalle else '✗'}")
6. Lien entre statistiques et probabilités
| Statistiques | Probabilités |
|---|---|
| Fréquence observée $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$2 | Probabilité théorique $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$3 |
| On observe des données | On modélise le hasard |
| Résultats dépendent de l'échantillon | Valeurs « exactes » du modèle |
La loi des grands nombres fait le pont : quand $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$4 est grand, les statistiques rejoignent le modèle probabiliste.
À retenir
- Un échantillon est un sous-ensemble de la population ; sa fréquence $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$5.
- Loi des grands nombres : $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$6 quand $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$7.
- Fluctuation : plusieurs échantillons donnent des fréquences différentes.
- Intervalle de fluctuation (seuil 95 %) : $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$8.
- On rejette l'hypothèse si $$I = \left[ 0{,}167 - \frac{1}{\sqrt{100}} \;; \; 0{,}167 + \frac{1}{\sqrt{100}} \right] = [0{,}067 \;; \; 0{,}267]$$9 ; on ne rejette pas si $$I = \left[ 0{,}05 - \frac{1}{\sqrt{400}} \;; \; 0{,}05 + \frac{1}{\sqrt{400}} \right] = [0{,}00 \;; \; 0{,}10]$$0.
- La simulation en Python (
random) permet d'estimer des probabilités expérimentalement.