Verken de data

Monte Carlo-simulaties in Python

Izzy Weber

Curriculum Manager, DataCamp

De diabetes-dataset

Tien onafhankelijke variabelen:

  • Leeftijd age
  • Geslacht sex
  • Body mass index bmi
  • Gemiddelde bloeddruk bp
  • Zes bloedserummetingen: tc, ldl, hdl, tch, ltg, glu
1 Bradley Efron, Trevor Hastie, Iain Johnstone en Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (met discussie), 407-499 2 https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html
Monte Carlo-simulaties in Python

De diabetes-dataset

Afhankelijke variabele

  • Een kwantitatieve maat voor ziekteprogressie één jaar na baseline, y

 

Omvang van de dataset

  • 442 diabetespatiënten
Monte Carlo-simulaties in Python

De diabetes-dataset

dia.head()
|     | age | sex | bmi  | bp     | tc  | ldl   | hdl  | tch  | ltg    | glu | y   |
|-----|-----|-----|------|--------|-----|-------|------|------|--------|-----|-----|
| 0   | 59  | 2   | 32.1 | 101.00 | 157 | 93.2  | 38.0 | 4.00 | 4.8598 | 87  | 151 |
| 1   | 48  | 1   | 21.6 | 87.00  | 183 | 103.2 | 70.0 | 3.00 | 3.8918 | 69  | 75  |
| 2   | 72  | 2   | 30.5 | 93.00  | 156 | 93.6  | 41.0 | 4.00 | 4.6728 | 85  | 141 |
| 3   | 24  | 1   | 25.3 | 84.00  | 198 | 131.4 | 40.0 | 5.00 | 4.8903 | 89  | 206 |
| 4   | 50  | 1   | 23.0 | 101.00 | 192 | 125.4 | 52.0 | 4.00 | 4.2905 | 80  | 135 |
1 https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html 2 http://statweb.lsu.edu/faculty/li/IIT/diabetes.txt
Monte Carlo-simulaties in Python

Waarom verkennen we data vóór simulatie?

  • Inspecteer de verdeling van variabelen
    • Intuïtie voor kansverdeling
  • Check en meet correlatie tussen predictoren
    • Redenen voor modelleren van covariatiestructuur
  • Check en meet correlatie tussen predictoren en respons
    • Eerste beeld van relatie tussen predictoren en respons
Monte Carlo-simulaties in Python

Pairplot van de dataset

sns.pairplot(dia)

pairplot van de variabelen in de dia-dataset

Monte Carlo-simulaties in Python

Pairplot van de dataset

sns.pairplot(dia)

Pairplot met geslacht gemarkeerd

Monte Carlo-simulaties in Python

Pairplot van de dataset

sns.pairplot(dia)

pairplot met tc en ldl gemarkeerd

Monte Carlo-simulaties in Python

Correlaties tussen variabelen

dia.corr()

Een correlatiematrix met correlaties tussen alle variabelen in dia

Monte Carlo-simulaties in Python

Laten we oefenen!

Monte Carlo-simulaties in Python

Preparing Video For Download...