Il resampling come tipo speciale di simulazione Monte Carlo

Simulazioni Monte Carlo in Python

Izzy Weber

Curriculum Manager, DataCamp

Il resampling come tipo speciale di simulazione Monte Carlo

 

Simulazioni Monte Carlo

  • Campiona da distribuzioni di probabilità
  • Distribuzioni note o assunte
  • Usa dati storici o esperienza per scegliere le distribuzioni

 

Resampling

  • Campiona a caso dai dati esistenti
  • I dati esistenti sono una distribuzione implicita
  • Assumi che i dati siano rappresentativi
Simulazioni Monte Carlo in Python

Metodi di resampling

  1. Campionamento senza reinserimento
    • Per estrarre un campione casuale
  2. Campionamento con reinserimento (bootstrapping)
    • Per stimare la distribuzione campionaria di quasi ogni statistica
  3. Permutazione
    • Spesso usata per confrontare due gruppi
Simulazioni Monte Carlo in Python

Campionamento senza reinserimento

Estrai casualmente due stati diversi tra i sei del New England

import random
def two_random_ne_states():

ne_states=["Maine", "Vermont", "New Hampshire", "Massachusetts", "Connecticut", "Rhode Island"]
return(random.sample(ne_states, 2))

 

 

two_random_ne_states()
two_random_ne_states()
['Massachusetts', 'Connecticut']
['New Hampshire', 'Maine']
Simulazioni Monte Carlo in Python

Bootstrapping

Stima dell’intervallo di confidenza al 95% per l’altezza media dei giocatori NBA

import random
import numpy as np

nba_heights = [196, 191, 198, 216, 188, 185, 211, 201,
               188, 191, 201, 208, 191, 183, 196]
simu_heights = []

for i in range(1000): bootstrap_sample = random.choices(nba_heights, k=15) simu_heights.append(np.mean(bootstrap_sample))
upper = np.quantile(simu_heights, 0.975) lower = np.quantile(simu_heights, 0.025) print([np.mean(simu_heights), lower, upper])
[196.26666666666668, 191.8, 201.2]
Simulazioni Monte Carlo in Python

Visualizzazione dei risultati bootstrap

Librerie di plotting:

  • seaborn
  • matplotlib
import seaborn as sns
import matplotlib.pyplot as plt

sns.displot(simu_heights)
plt.axvline(191.8, color="red")
plt.axvline(201.2, color="red")
plt.axvline(196.3, color="green")

 

un grafico di distribuzione delle altezze simulate

Simulazioni Monte Carlo in Python

Permutazione

Stima dell’intervallo di confidenza al 95% della differenza media tra le altezze dei giocatori NBA e dei maschi USA

us_heights = [165, 185, 179, 187, 193, 180, 178, 179, 171, 176, 
              169, 160, 140, 199, 176, 185, 175, 196, 190, 176]
nba_heights = [196, 191, 198, 216, 188, 185, 211, 201, 188, 191, 201, 208, 191, 183, 196]

all_heights = us_heights + nba_heights
simu_diff = [] for i in range(1000): perm_sample = np.random.permutation(all_heights) perm_nba, perm_adult = perm_sample[0:15], perm_sample[15:35]
perm_diff = np.mean(perm_nba) - np.mean(perm_adult) simu_diff.append(perm_diff)
Simulazioni Monte Carlo in Python

Risultati della permutazione

Differenza tra le medie: altezza NBA vs maschi adulti USA:

np.mean(nba_heights) - np.mean(us_adult_height)
18.31666666666669

Intervallo di confidenza al 95% per la permutazione di due liste casuali:

upper = np.quantile(simu_diff, 0.975)
lower = np.quantile(simu_diff, 0.025)
print([lower, upper])
[-10.033333333333331, 10.033333333333331]
Simulazioni Monte Carlo in Python

Visualizzare i risultati della permutazione

sns.distplot(simu_diff)
plt.axvline(-10.03, color="red")
plt.axvline(10.03, color="red")
plt.axvline(18.32, color="green")

un grafico di distribuzione delle altezze simulate

Simulazioni Monte Carlo in Python

Passons à la pratique !

Simulazioni Monte Carlo in Python

Preparing Video For Download...