Types de données de textuelles et problèmes courants

Analyse exploratoire des données en SQL

Christina Maimone

Data Scientist

Types de caractères PostgreSQL

character(n) ou char(n)

  • longueur fixe n
  • espaces à la fin ignorés dans les comparaisons

character varying(n) ou varchar(n)

  • longueur variable jusqu'à un maximum de n

text ou varchar

  • longueur illimitée
Analyse exploratoire des données en SQL

Types de données textuelles

Catégorielle

Mar, Mardi, Lun, Jeu

chemises, chaussures, chapeaux, pantalons

satisfait, très satisfait, insatisfait

0349-938, 1254-001, 5477-651

rouge, bleu, vert, jaune

Texte non structuré

J'apprécie grandement ce produit. Je l'utilise quotidiennement. C'est ma couleur préférée.

Nous avons repensé votre t-shirt préféré pour l’améliorer. Vous apprécierez…

Il y a quatre-vingt-sept ans, nos ancêtres ont fondé sur ce continent une nouvelle nation, conçue dans l'esprit de liberté et dédiée au principe selon lequel tous les hommes naissent égaux…

Analyse exploratoire des données en SQL

Regroupement et comptage

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category;     -- categorical variable


 category | count 
----------+-------
 Banana   |     1
 Apple    |     4
 apple    |     2
  apple   |     1
 banana   |     3
(5 rows)
Analyse exploratoire des données en SQL

Ordre : valeurs les plus fréquentes

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY count DESC;   -- show most frequent values first
 category | count 
----------+-------
 Apple    |     4
 banana   |     3
 apple    |     2
 Banana   |     1
  apple   |     1
(5 rows)
Analyse exploratoire des données en SQL

Commande : valeur de catégorie

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY category;     -- order by categorical variable
 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

Analyse exploratoire des données en SQL

Ordre alphabétique

-- Results

 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

-- Alphabetical Order:

' ' < 'A' < 'a'
-- From results

' ' < 'A' < 'B' < 'a' < 'b'

Analyse exploratoire des données en SQL

Problèmes courants

La casse est importante

    'apple' != 'Apple'

 

Les espaces comptent

    ' apple' != 'apple'

    '' != '       '

Les chaînes vides ne sont pas nulles

    '' != NULL

 

Différences de ponctuation

    'to-do' != 'to–do'

Analyse exploratoire des données en SQL

Il est temps d'examiner certaines données textuelles

Analyse exploratoire des données en SQL

Preparing Video For Download...