Ce este analiza exploratorie a datelor?

Analiza exploratorie a datelor în Power BI

Jacob H. Marquez

Data Scientist at Microsoft

Ce este analiza exploratorie a datelor?

„O abordare de analiză a seturilor de date pentru a rezuma caracteristicile principale ale acestora, folosind adesea grafice statistice și alte metode de vizualizare a datelor."

1 https://en.wikipedia.org/wiki/Exploratory_data_analysis
Analiza exploratorie a datelor în Power BI

Șase pași în EDA

  1. Înțelegerea structurii datelor

  2. Identificarea datelor lipsă

  3. Descrierea datelor cu statistici descriptive și distribuții

  4. Identificarea valorilor extreme

  5. Examinarea și cuantificarea relațiilor dintre variabile

  6. Formularea ipotezelor

Analiza exploratorie a datelor în Power BI

Șase pași în EDA

  1. Înțelegerea structurii datelor

  2. Identificarea datelor lipsă

  3. Descrierea datelor cu statistici descriptive și distribuții

  4. Identificarea valorilor extreme

  5. Examinarea și cuantificarea relațiilor dintre variabile

  6. Formularea ipotezelor

Analiza exploratorie a datelor în Power BI

1. Înțelegerea structurii datelor

Continuu

Variabile numerice care pot lua un set infinit de valori

  • Numărul de stele din spațiu
  • Rate de click
  • Distanța dintre două orașe

Categorial

Variabile non-numerice, de obicei text, cu două sau mai multe grupuri

  • Tipuri de locuințe
  • Țară
  • Companie
Analiza exploratorie a datelor în Power BI

2. Identificarea datelor lipsă

 

Lipsă aleatorie

O matrice de nouă pe patru cu trei grupuri de câte trei rânduri pentru trei orașe: Seattle, New York City și Paris. Există valori reprezentând precipitații în 30 de celule și 6 sunt goale aleatoriu în cele trei grupuri.

 

Lipsă non-aleatorie

O matrice de nouă pe patru cu trei grupuri de câte trei rânduri pentru trei orașe: Seattle, New York City și Paris. Există valori reprezentând precipitații în 30 de celule și 4 sunt goale aleatoriu doar pentru Seattle.

Analiza exploratorie a datelor în Power BI

2. Tratarea datelor lipsă

 

O matrice de nouă pe patru cu trei grupuri de câte trei rânduri pentru trei orașe: Seattle, New York City și Paris. Există valori reprezentând precipitații în 30 de celule și 4 sunt goale aleatoriu doar pentru Seattle.

Aceeași matrice de nouă pe patru, dar cu primul rând eliminat, reprezentând ștergerea celulelor goale.

Aceeași matrice de nouă pe patru, dar cu primul rând completat, reprezentând imputarea celulelor goale cu valoarea mediană.

Analiza exploratorie a datelor în Power BI

3. Descrierea datelor

  • Minim
  • Maxim
  • Medie: suma valorilor împărțită la numărul de observații
  • Mediană: valoarea din centrul intervalului de valori
  • Abatere standard: diferența medie față de medie, calculată pe toate punctele de date
Analiza exploratorie a datelor în Power BI

3. Descrierea datelor prin distribuții

O histogramă a înălțimilor persoanelor cu valorile înălțimii pe axa x și numărul de observații pe axa y.

  • Mediana și media sunt egale
  • Curbă simetrică
Analiza exploratorie a datelor în Power BI

3. Descrierea datelor prin distribuții

O histogramă a venitului gospodăriilor cu valorile venitului pe axa x și numărul de observații pe axa y. Histograma este largă în stânga și se îngustează spre dreapta.

  • Mediană < Medie
  • „Oblică la dreapta": coada este spre dreapta

O histogramă a timpului petrecut online cu valorile de timp pe axa x și numărul de observații pe axa y. Histograma este îngustă în stânga și se lărgește spre dreapta.

  • Mediană > Medie
  • „Oblică la stânga": coada este spre stânga
Analiza exploratorie a datelor în Power BI

Setul de date: listări AirBnB

O imagine a setului de date AirBnB cu cinci coloane: listing_id, host_id, host_since (coloană de dată), city și price.

Analiza exploratorie a datelor în Power BI

Să exersăm!

Analiza exploratorie a datelor în Power BI

Preparing Video For Download...