Weitere deskriptive Funktionen

Explorative Datenanalyse in SQL

Christina Maimone

Data Scientist

Korrelation

Streudiagramme von Datenpunkten mit positiven und negativen Korrelationen

Explorative Datenanalyse in SQL

Korrelationsfunktion

SELECT corr(assets, equity) 
  FROM fortune500;
       corr        
-------------------
 0.637710143588615
(1 row)
Explorative Datenanalyse in SQL

Median

1 1 4 4 4 5 6 7 13 19 20 20 21 21 22
              ^
            median
        50th percentile

^                                  ^
0th percentile      100th percentile
Explorative Datenanalyse in SQL

Perzentilfunktionen

SELECT percentile_disc(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;

-- percentile between 0 and 1
  • Gibt einen Wert aus der Spalte zurück

 

SELECT percentile_cont(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;
  • Interpoliert zwischen Werten
Explorative Datenanalyse in SQL

Beispiele für Perzentile

SELECT val
  FROM nums;
 val 
-----
   1
   3
   4
   5
(4 rows)
SELECT percentile_disc(.5) WITHIN GROUP (ORDER BY val),
       percentile_cont(.5) WITHIN GROUP (ORDER BY val)
  FROM nums;
 percentile_disc | percentile_cont 
-----------------+-----------------
               3 |             3.5
Explorative Datenanalyse in SQL

Häufige Probleme

  • Fehlercodes
    • Beispiele: 9, 99, -99
  • Codes für fehlende Werte
    • NA, NaN, N/A, #N/A
    • 0 = fehlt oder 0?
  • Ausreißer (extreme) Werte
    • Sehr hoch oder niedrig?
    • Negative Werte?
  • Nicht wirklich eine Zahl
    • Beispiele: Postleitzahlen, Antwortkategorien in Umfragen
Explorative Datenanalyse in SQL

Lass uns üben!

Explorative Datenanalyse in SQL

Preparing Video For Download...