Zeichendatentypen und häufige Probleme

Explorative Datenanalyse in SQL

Christina Maimone

Data Scientist

PostgreSQL-Zeichentypen

character(n) oder char(n)

  • feste Länge n
  • Nachfolgende Leerzeichen werden beim Vergleichen nicht beachtet.

character varying(n) oder varchar(n)

  • variable Länge bis maximal n

text oder varchar

  • unbegrenzte Länge
Explorative Datenanalyse in SQL

Arten von Textdaten

Kategorial

Di , Dienstag, Mo, DO

Hemden, Schuhe, Hüte, Hosen

zufrieden, super zufrieden, unzufrieden

0349-938, 1254-001, 5477-651

rot, blau, grün, gelb

Unstrukturierter Text

Ich finde dieses Produkt echt super. Ich benutze es jeden Tag. Es hat meine Lieblingsfarbe.

Wir haben dein Lieblings-T-Shirt neu gestaltet, damit es noch besser wird. Du wirst es lieben...

Vor 87 Jahren haben unsere Väter auf diesem Kontinent eine neue Nation gegründet, die auf Freiheit basiert und sich dem Grundsatz verschrieben hat, dass alle Menschen gleich sind...

Explorative Datenanalyse in SQL

Gruppieren und zählen

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category;     -- categorical variable


 category | count 
----------+-------
 Banana   |     1
 Apple    |     4
 apple    |     2
  apple   |     1
 banana   |     3
(5 rows)
Explorative Datenanalyse in SQL

Reihenfolge: häufigste Werte

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY count DESC;   -- show most frequent values first
 category | count 
----------+-------
 Apple    |     4
 banana   |     3
 apple    |     2
 Banana   |     1
  apple   |     1
(5 rows)
Explorative Datenanalyse in SQL

Reihenfolge: Kategoriewert

SELECT category,        -- categorical variable

       count(*)         -- count rows for each category

  FROM product          -- table

 GROUP BY category      -- categorical variable

 ORDER BY category;     -- order by categorical variable
 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

Explorative Datenanalyse in SQL

Alphabetische Reihenfolge

-- Results

 category | count 
----------+-------
  apple   |     1
 Apple    |     4
 Banana   |     1
 apple    |     2
 banana   |     3
(5 rows)

-- Alphabetical Order:

' ' < 'A' < 'a'
-- From results

' ' < 'A' < 'B' < 'a' < 'b'

Explorative Datenanalyse in SQL

Häufige Probleme

Groß- und Kleinschreibung ist wichtig

    'apple' != 'Apple'

 

Leerzeichen zählen

    ' apple' != 'apple'

    '' != '       '

Leere Zeichenketten sind nicht null.

    '' != NULL

 

Unterschiede in der Zeichensetzung

    'to-do' != 'to–do'

Explorative Datenanalyse in SQL

Zeit, ein paar Textdaten zu analysieren

Explorative Datenanalyse in SQL

Preparing Video For Download...