Verkennende data-analyse

Data Science begrijpen

Hadrien Lacroix

Content Developer at DataCamp

Wat is EDA?

Verkennende data-analyse:

  • De gegevens bekijken
  • Hypothesen bedenken
  • Kenmerken beoordelen
  • Visualiseren

foto-van-john-tukey

Data Science begrijpen

Dataworkflow

data science-workflow

Data Science begrijpen

Laten we meteen beginnen

Dataset 1        Dataset 2        Dataset 3        Dataset 4        
|x    |y    |    |x    |y    |    |x    |y    |    |x    |y    |
|-----|-----|    |-----|-----|    |-----|-----|    |-----|-----|    
|10.0 |8.04 |    |10.0 |9.14 |    |10.0 |7.46 |    |8.0  |6.58 |
|8.0  |6.95 |    |8.0  |8.14 |    |8.0  |6.77 |    |8.0  |5.76 |
|13.0 |7.58 |    |13.0 |8.74 |    |13.0 |12.74|    |8.0  |7.71 |
|9.0  |8.81 |    |9.0  |8.77 |    |9.0  |7.11 |    |8.0  |8.84 |
|11.0 |8.33 |    |11.0 |9.26 |    |11.0 |7.81 |    |8.0  |8.47 |
|14.0 |9.96 |    |14.0 |8.10 |    |14.0 |8.84 |    |8.0  |7.04 |
|6.0  |7.24 |    |6.0  |6.13 |    |6.0  |6.08 |    |8.0  |5.25 |
|4.0  |4.26 |    |4.0  |3.10 |    |4.0  |5.39 |    |19.0 |12.50|
|12.0 |10.84|    |12.0 |9.13 |    |12.0 |8.15 |    |8.0  |5.56 |
|7.0  |4.82 |    |7.0  |7.26 |    |7.0  |6.42 |    |8.0  |7.91 |
|5.0  |5.68 |    |5.0  |4.74 |    |5.0  |5.73 |    |8.0  |6.89 |
Data Science begrijpen

Verrassing!

Alle vier datasets geven:

  • hetzelfde gemiddelde en dezelfde variantie voor x
  • hetzelfde gemiddelde en dezelfde variantie voor y
  • identieke correlatiecoëfficiënt
  • identieke lineaire regressievergelijking

$$

Kortom: ze lijken best veel op elkaar.

Data Science begrijpen

Het kwartet van Anscombe

het kwartet van Anscombe

Data Science begrijpen

Lineaire grafiek van Anscombe

Data Science begrijpen

Anscombe's niet-lineaire grafiek

Data Science begrijpen

Anscombe's regressie wijkt af

Data Science begrijpen

Anscombe's correlatie wijkt af

Data Science begrijpen

twee-raketten-die-tegelijkertijd-landen

Data Science begrijpen

Je gegevens kennen

  • Vluchtnummer (nummer)
  • Datum (datetime)
  • Tijd (UTC) (datetime)
  • Booster-versie (tekst)
  • Lanceringssite (tekst)
  • Nettolading (text)
  • Laadvermogen (kg) (getal)
  • Baan (tekst)
  • Klant (tekst)
  • Missieresultaat (tekst)
  • Landingsresultaat (tekst)
Data Science begrijpen

Je gegevens bekijken

Flight  Date         Time (UTC)  Booster Version  Launch Site     Payload
_______________________________________________________________________________________________________
1       2010-06-04   18:45:00    F9 v1.0 B0003    CCAFS LC-40    Dragon Spacecraft Qualification Unit
2       2010-12-08   15:43:00    F9 v1.0 B0004    CCAFS LC-40    Dragon demo flight C1, two CubeSats...
3       2012-05-22   7:44:00     F9 v1.0 B0005    CCAFS LC-40    Dragon demo flight C2+
4       2012-10-08   0:35:00     F9 v1.0 B0006    CCAFS LC-40    SpaceX CRS-1
5       2013-03-01   15:10:00    F9 v1.0 B0007    CCAFS LC-40    SpaceX CRS-2    
Payload Mass (kg)    Orbit     Customer         Mission Outcome  Landing Outcome
_______________________________________________________________________________________________________
NaN                  LEO       SpaceX           Success          Failure (parachute)
NaN                  LEO (ISS) NASA (COTS) NRO  Success          Failure (parachute)
525                  LEO (ISS) NASA (COTS)      Success          No attempt
500                  LEO (ISS) NASA (CRS)       Success          No attempt
677                  LEO (ISS) NASA (CRS)       Success          No attempt
Data Science begrijpen

Beschrijvende statistiek

        Flight  Date         Time (UTC)  Booster Version  Launch Site     Payload
_______________________________________________________________________________________________________
count   55     55            55          55               55              55
unique  55     55            53          51               4               55
top     6      2018-03-30    4:45:00     F9 v1.1          CCAFS LC-40     SES-9
freq    1      1             2           5                26              1
        Payload Mass (kg)    Orbit     Customer         Mission Outcome  Landing Outcome
_______________________________________________________________________________________________________
count   53                   55        55               55               55
unique  47                   8         28               2                12
top     9,600                GTO       NASA (CRS)       Success          No attempt
freq    5                    22        14               54               18
Data Science begrijpen

Visualiseer!

spacex_lancering_tellen

Data Science begrijpen

Stel meer vragen!

space-x-laceringen-per-site

Data Science begrijpen

Stel meer vragen!

space-x-lanceringen-per-resultaat

Data Science begrijpen

Uitschieters

spacex-nettolading-massa-histogram

Data Science begrijpen

Laten we oefenen!

Data Science begrijpen

Preparing Video For Download...