Analyse exploratoire des données en SQL
Christina Maimone
Data Scientist
character(n)
ou char(n)
n
character varying(n)
ou varchar(n)
n
text
ou varchar
Catégorielle
Mar, Mardi, Lun, Jeu
chemises, chaussures, chapeaux, pantalons
satisfait, très satisfait, insatisfait
0349-938, 1254-001, 5477-651
rouge, bleu, vert, jaune
Texte non structuré
J'apprécie grandement ce produit. Je l'utilise quotidiennement. C'est ma couleur préférée.
Nous avons repensé votre t-shirt préféré pour l’améliorer. Vous apprécierez…
Il y a quatre-vingt-sept ans, nos ancêtres ont fondé sur ce continent une nouvelle nation, conçue dans l'esprit de liberté et dédiée au principe selon lequel tous les hommes naissent égaux…
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category; -- categorical variable
category | count
----------+-------
Banana | 1
Apple | 4
apple | 2
apple | 1
banana | 3
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY count DESC; -- show most frequent values first
category | count
----------+-------
Apple | 4
banana | 3
apple | 2
Banana | 1
apple | 1
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY category; -- order by categorical variable
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Results
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Alphabetical Order:
' ' < 'A' < 'a'
-- From results
' ' < 'A' < 'B' < 'a' < 'b'
La casse est importante
'apple' != 'Apple'
Les espaces comptent
' apple' != 'apple'
'' != '
'
Les chaînes vides ne sont pas nulles
'' != NULL
Différences de ponctuation
'to-do' != 'to–do'
Analyse exploratoire des données en SQL