Analyse exploratoire des données en SQL
Christina Maimone
Data Scientist
character(n) ou char(n)
ncharacter varying(n) ou varchar(n)
ntext ou varchar
Catégorielle
Mar, Mardi, Lun, Jeu
chemises, chaussures, chapeaux, pantalons
satisfait, très satisfait, insatisfait
0349-938, 1254-001, 5477-651
rouge, bleu, vert, jaune
Texte non structuré
J'apprécie grandement ce produit. Je l'utilise quotidiennement. C'est ma couleur préférée.
Nous avons repensé votre t-shirt préféré pour l’améliorer. Vous apprécierez…
Il y a quatre-vingt-sept ans, nos ancêtres ont fondé sur ce continent une nouvelle nation, conçue dans l'esprit de liberté et dédiée au principe selon lequel tous les hommes naissent égaux…
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category; -- categorical variable
category | count
----------+-------
Banana | 1
Apple | 4
apple | 2
apple | 1
banana | 3
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY count DESC; -- show most frequent values first
category | count
----------+-------
Apple | 4
banana | 3
apple | 2
Banana | 1
apple | 1
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY category; -- order by categorical variable
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Results
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Alphabetical Order:
' ' < 'A' < 'a'
-- From results
' ' < 'A' < 'B' < 'a' < 'b'
La casse est importante
'apple' != 'Apple'
Les espaces comptent
' apple' != 'apple'
'' != ' '
Les chaînes vides ne sont pas nulles
'' != NULL
Différences de ponctuation
'to-do' != 'to–do'
Analyse exploratoire des données en SQL