Explorative Datenanalyse in SQL
Christina Maimone
Data Scientist
character(n) oder char(n)
ncharacter varying(n) oder varchar(n)
ntext oder varchar
Kategorial
Di , Dienstag, Mo, DO
Hemden, Schuhe, Hüte, Hosen
zufrieden, super zufrieden, unzufrieden
0349-938, 1254-001, 5477-651
rot, blau, grün, gelb
Unstrukturierter Text
Ich finde dieses Produkt echt super. Ich benutze es jeden Tag. Es hat meine Lieblingsfarbe.
Wir haben dein Lieblings-T-Shirt neu gestaltet, damit es noch besser wird. Du wirst es lieben...
Vor 87 Jahren haben unsere Väter auf diesem Kontinent eine neue Nation gegründet, die auf Freiheit basiert und sich dem Grundsatz verschrieben hat, dass alle Menschen gleich sind...
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category; -- categorical variable
category | count
----------+-------
Banana | 1
Apple | 4
apple | 2
apple | 1
banana | 3
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY count DESC; -- show most frequent values first
category | count
----------+-------
Apple | 4
banana | 3
apple | 2
Banana | 1
apple | 1
(5 rows)
SELECT category, -- categorical variable
count(*) -- count rows for each category
FROM product -- table
GROUP BY category -- categorical variable
ORDER BY category; -- order by categorical variable
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Results
category | count
----------+-------
apple | 1
Apple | 4
Banana | 1
apple | 2
banana | 3
(5 rows)
-- Alphabetical Order:
' ' < 'A' < 'a'
-- From results
' ' < 'A' < 'B' < 'a' < 'b'
Groß- und Kleinschreibung ist wichtig
'apple' != 'Apple'
Leerzeichen zählen
' apple' != 'apple'
'' != ' '
Leere Zeichenketten sind nicht null.
'' != NULL
Unterschiede in der Zeichensetzung
'to-do' != 'to–do'
Explorative Datenanalyse in SQL