Esplora i dati

Simulazioni Monte Carlo in Python

Izzy Weber

Curriculum Manager, DataCamp

Il dataset sul diabete

Dieci variabili indipendenti:

  • Età age
  • Sesso sex
  • Indice di massa corporea bmi
  • Pressione arteriosa media bp
  • Sei misure sieriche: tc, ldl, hdl, tch, ltg, glu
1 Bradley Efron, Trevor Hastie, Iain Johnstone and Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (con discussione), 407-499 2 https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
Simulazioni Monte Carlo in Python

Il dataset sul diabete

Variabile dipendente

  • Misura quantitativa della progressione della malattia un anno dopo il baseline, y

 

Dimensione del dataset

  • 442 pazienti con diabete
Simulazioni Monte Carlo in Python

Il dataset sul diabete

dia.head()
|     | age | sex | bmi  | bp     | tc  | ldl   | hdl  | tch  | ltg    | glu | y   |
|-----|-----|-----|------|--------|-----|-------|------|------|--------|-----|-----|
| 0   | 59  | 2   | 32.1 | 101.00 | 157 | 93.2  | 38.0 | 4.00 | 4.8598 | 87  | 151 |
| 1   | 48  | 1   | 21.6 | 87.00  | 183 | 103.2 | 70.0 | 3.00 | 3.8918 | 69  | 75  |
| 2   | 72  | 2   | 30.5 | 93.00  | 156 | 93.6  | 41.0 | 4.00 | 4.6728 | 85  | 141 |
| 3   | 24  | 1   | 25.3 | 84.00  | 198 | 131.4 | 40.0 | 5.00 | 4.8903 | 89  | 206 |
| 4   | 50  | 1   | 23.0 | 101.00 | 192 | 125.4 | 52.0 | 4.00 | 4.2905 | 80  | 135 |
1 https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html 2 http://statweb.lsu.edu/faculty/li/IIT/diabetes.txt
Simulazioni Monte Carlo in Python

Perché esplorare i dati prima della simulazione?

  • Ispeziona visivamente la distribuzione delle variabili
    • Intuizione sulla distribuzione di probabilità
  • Controlla e misura la correlazione tra predittori
    • Motivi per modellare la covarianza
  • Controlla e misura la correlazione tra predittori e risposta
    • Prima idea della relazione tra predittori e risposta
Simulazioni Monte Carlo in Python

Pairplot del dataset

sns.pairplot(dia)

pairplot delle variabili nel dataset dia

Simulazioni Monte Carlo in Python

Pairplot del dataset

sns.pairplot(dia)

Pairplot con sesso evidenziato

Simulazioni Monte Carlo in Python

Pairplot del dataset

sns.pairplot(dia)

pairplot con tc e ldl evidenziati

Simulazioni Monte Carlo in Python

Correlazioni tra variabili

dia.corr()

Una matrice di correlazione tra tutte le variabili in dia

Simulazioni Monte Carlo in Python

Passons à la pratique !

Simulazioni Monte Carlo in Python

Preparing Video For Download...