Plus de fonctions de synthèse

Analyse exploratoire des données en SQL

Christina Maimone

Data Scientist

Corrélation

Diagrammes de dispersion des points de données présentant des corrélations positives et négatives

Analyse exploratoire des données en SQL

Fonction de corrélation

SELECT corr(assets, equity) 
  FROM fortune500;
       corr        
-------------------
 0.637710143588615
(1 row)
Analyse exploratoire des données en SQL

Médiane

1 1 4 4 4 5 6 7 13 19 20 20 21 21 22
              ^
            median
        50th percentile

^                                  ^
0th percentile      100th percentile
Analyse exploratoire des données en SQL

Fonctions percentiles

SELECT percentile_disc(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;

-- percentile between 0 and 1
  • Renvoie une valeur de la colonne

 

SELECT percentile_cont(percentile) WITHIN GROUP (ORDER BY column_name)
  FROM table;
  • Interpole entre les valeurs
Analyse exploratoire des données en SQL

Exemples de percentiles

SELECT val
  FROM nums;
 val 
-----
   1
   3
   4
   5
(4 rows)
SELECT percentile_disc(.5) WITHIN GROUP (ORDER BY val),
       percentile_cont(.5) WITHIN GROUP (ORDER BY val)
  FROM nums;
 percentile_disc | percentile_cont 
-----------------+-----------------
               3 |             3.5
Analyse exploratoire des données en SQL

Problèmes courants

  • Codes d'erreur
    • Exemples : 9, 99, -99
  • Codes de valeurs manquantes
    • NA, NaN, N/A, #N/A
    • 0 = manquant ou 0 ?
  • Valeurs aberrantes (extrêmes)
    • Vraiment élevé ou faible ?
    • Valeurs négatives ?
  • Pas vraiment un nombre
    • Exemples : codes postaux, catégories de réponses à un sondage
Analyse exploratoire des données en SQL

Passons à la pratique !

Analyse exploratoire des données en SQL

Preparing Video For Download...