Meer samenvattingsfuncties

Exploratory Data Analysis in SQL

Christina Maimone

Data Scientist

Correlatie

Spreidingsdiagrammen met positieve en negatieve correlaties

Exploratory Data Analysis in SQL

Correlatiefunctie

SELECT corr(assets, equity) 
  FROM fortune500;
       corr        
-------------------
 0.637710143588615
(1 row)
Exploratory Data Analysis in SQL

Mediaan

1 1 4 4 4 5 6 7 13 19 20 20 21 21 22
              ^
            mediaan
        50e percentiel

^                                  ^
0e percentiel      100e percentiel
Exploratory Data Analysis in SQL

Percentielfuncties

SELECT percentile_disc(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;

-- percentile between 0 and 1
  • Geeft een waarde uit de kolom terug

 

SELECT percentile_cont(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;
  • Interpoleert tussen waarden
Exploratory Data Analysis in SQL

Percentielvoorbeelden

SELECT val
  FROM nums;
 val 
-----
   1
   3
   4
   5
(4 rows)
SELECT percentile_disc(.5) WITHIN GROUP (ORDER BY val),
       percentile_cont(.5) WITHIN GROUP (ORDER BY val)
  FROM nums;
 percentile_disc | percentile_cont 
-----------------+-----------------
               3 |             3.5
Exploratory Data Analysis in SQL

Veelvoorkomende problemen

  • Foutcodes
    • Voorbeelden: 9, 99, -99
  • Codes voor missende waarden
    • NA, NaN, N/A, #N/A
    • 0 = ontbrekend of echt 0?
  • Uitschieters (extreem)
    • Heel hoog of laag?
    • Negatieve waarden?
  • Geen echt getal
    • Voorbeelden: postcodes, antwoordcategorieën in enquêtes
Exploratory Data Analysis in SQL

Laten we oefenen!

Exploratory Data Analysis in SQL

Preparing Video For Download...