Tipos de dados de caracteres e problemas comuns

Análise Exploratória de Dados em SQL

Christina Maimone

Data Scientist

Tipos de caracteres do PostgreSQL

character(n) ou char(n)

  • comprimento fixo n
  • espaços à direita ignorados em comparações

character varying(n) ou varchar(n)

  • comprimento variável até um máximo de n

text ou varchar

  • comprimento ilimitado
Análise Exploratória de Dados em SQL

Tipos de dados de texto

Categórico

Tues, Tuesday, Mon, TH

camisas, sapatos, chapéus, calças

satisfeito, muito satisfeito, insatisfeito

0349-938, 1254-001, 5477-651

vermelho, azul, verde, amarelo

Texto não estruturado

Gosto muito desse produto. Uso isso todo dia. É minha cor favorita.

Redesenhamos sua camiseta favorita para deixá-la ainda melhor. Você vai amar...

Há oitenta e sete anos, nossos pais fundaram neste continente uma nova nação, concebida na Liberdade e dedicada ao princípio de que todos os homens são criados iguais...

Análise Exploratória de Dados em SQL

Agrupar e contar

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category;     -- categorical variable


 category | count 
----------+-------
 Banana   |     1
 Apple    |     4
 apple    |     2
  apple   |     1
 banana   |     3
(5 rows)
Análise Exploratória de Dados em SQL

Ordem: valores mais frequentes

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY count DESC;   -- show most frequent values first
 category | count 
----------+-------
 Apple    |     4
 banana   |     3
 apple    |     2
 Banana   |     1
  apple   |     1
(5 rows)
Análise Exploratória de Dados em SQL

Ordem: valor da categoria

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY category;     -- order by categorical variable
 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

Análise Exploratória de Dados em SQL

Ordem alfabética

-- Results

 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

-- Alphabetical Order:

' ' < 'A' < 'a'
-- From results

' ' < 'A' < 'B' < 'a' < 'b'

Análise Exploratória de Dados em SQL

Problemas comuns

Diferencia maiúsculas de minúsculas

    'apple' != 'Apple'

 

Espaços contam

    ' apple' != 'apple'

    '' != '       '

Strings vazias não são nulas

    '' != NULL

 

Diferenças de pontuação

    'to-do' != 'to–do'

Análise Exploratória de Dados em SQL

Hora de examinar dados de texto

Análise Exploratória de Dados em SQL

Preparing Video For Download...