Cos'è la pulizia e preparazione dei dati?

Preparazione dei dati in Alteryx

Deanna Sanchez

Alteryx ACE and Owner, Nova Geographica LLC

Perché i dati puliti sono importanti?

GIGO: "Garbage In, Garbage Out"

  • Pulire e preparare i dati ti consente di:
    • Evitare sviste ed errori
    • Standardizzare dati e formati
    • Aumentare la produttività
    • Accelerare gli insight

Rappresentazione di spazzatura che entra ed esce da un database

Preparazione dei dati in Alteryx

Pulire i tuoi dati è come...

Mettere a punto l'auto - Componenti puliti e fluidi nuovi ottimizzano le prestazioni.

 

Meccanico che mette a punto un'auto

Preparazione dei dati in Alteryx

Esempi di dati sporchi

  • Dati mancanti o incompleti

Tabella dati che evidenzia dati mancanti come celle vuote

Preparazione dei dati in Alteryx

Esempi di dati sporchi

  • Dati mancanti o incompleti
  • Dati non standardizzati o incoerenti

Tabella dati che evidenzia incoerenze come maiuscole miste a maiuscole iniziali

Preparazione dei dati in Alteryx

Esempi di dati sporchi

  • Dati mancanti o incompleti
  • Dati non standardizzati o incoerenti
  • Errori di inserimento dati

Tabella dati che evidenzia errori di inserimento come troppe cifre

Preparazione dei dati in Alteryx

Esempi di dati sporchi

  • Dati mancanti o incompleti
  • Dati non standardizzati o incoerenti
  • Errori di inserimento dati
  • Spazi iniziali/finali e caratteri o punteggiatura superflui

Tabella dati che evidenzia punteggiatura superflua, ad es. simboli $ su numerici

Preparazione dei dati in Alteryx

Tecniche di pulizia dati

Gestire i dati mancanti

  • Segnala i mancanti imputando valori, ad es.:
    • Converti i null in vuoti per i tipi stringa
    • Imputa i null a 0 per i tipi numerici
  • Filtra i mancanti dallo stream di dati

Analisti che puliscono file di dati con lente e scopa

Preparazione dei dati in Alteryx

Tecniche di pulizia dati

Standardizzare i dati

  • Assicurare la formattazione
    • Aggiungere $ alle valute
    • 000123456
  • Verificare le convenzioni di naming per campi e file
    • "filename_01012004.csv"
  • Modificare il case dei valori in un campo
    • LOCATION
  • Modificare i tipi di dati

Analista che archivia dati nelle cartelle corrette

Preparazione dei dati in Alteryx

Tecniche di pulizia dati

Rimuovere elementi superflui

  • Spazi iniziali/finali
  • Tab e interruzioni di riga
  • Righe o colonne non necessarie
  • Punteggiatura, lettere e numeri non necessari

Operai che ripuliscono file di dati

Preparazione dei dati in Alteryx

Profilo con codifica a colori

La codifica a colori nella finestra Results e in Profile guida l'uso delle tecniche di pulizia.

  • Verde = OK

Profilo colore OK

Preparazione dei dati in Alteryx

Profilo con codifica a colori

La codifica a colori nella finestra Results e in Profile guida l'uso delle tecniche di pulizia.

  • Verde = OK
  • Bianco = Unico

Profili colore OK e Unico

Preparazione dei dati in Alteryx

Profilo con codifica a colori

La codifica a colori nella finestra Results e in Profile guida l'uso delle tecniche di pulizia.

  • Verde = OK
  • Bianco = Unico
  • Giallo = Null

Profili colore OK, Unico e Null

Preparazione dei dati in Alteryx

Profilo con codifica a colori

La codifica a colori nella finestra Results e in Profile guida l'uso delle tecniche di pulizia.

  • Verde = OK
  • Bianco = Unico
  • Giallo = Null
  • Rosso = Non OK (es. spazi finali)

Profili colore OK, Unico, Null e Non OK

Preparazione dei dati in Alteryx

Profilo con codifica a colori

La codifica a colori nella finestra Results e in Profile guida l'uso delle tecniche di pulizia.

  • Verde = OK
  • Bianco = Unico
  • Giallo = Null
  • Rosso = Non OK (es. spazi finali)
  • Grigio = Vuoto

Tutti i profili colore

Preparazione dei dati in Alteryx

Tipi di dati in Alteryx

Tabella con tipo di dato Boolean visualizzato

  • Importante conoscere i vari tipi di dati
    • Come e quando usarli
  • Cinque categorie principali
    • Boolean - formati binari
Preparazione dei dati in Alteryx

Tipi di dati in Alteryx

Tabella con Boolean e Numeric visualizzati

  • Importante conoscere i vari tipi di dati
    • Come e quando usarli
  • Cinque categorie principali
    • Boolean - formati binari
    • Numeric - dati numerici, include Double
Preparazione dei dati in Alteryx

Tipi di dati in Alteryx

Tabella con Boolean, Numeric e String visualizzati

  • Importante conoscere i vari tipi di dati
    • Come e quando usarli
  • Cinque categorie principali
    • Boolean - formati binari
    • Numeric - dati numerici, include Double
    • String - dati testuali
1 String, che va dai tipi String a V_W String.
Preparazione dei dati in Alteryx

Tipi di dati in Alteryx

Tabella con quattro tipi di dati: Boolean, Numeric, String e DateTime

  • Importante conoscere i vari tipi di dati
    • Come e quando usarli
  • Cinque categorie principali
    • Boolean - formati binari
    • Numeric - dati numerici, include Double
    • String - dati testuali
    • DateTime - dati di date e ore
Preparazione dei dati in Alteryx

Tipi di dati in Alteryx

Tabella con tutti e cinque i tipi di dati principali

  • Importante conoscere i vari tipi di dati
    • Come e quando usarli
  • Cinque categorie principali
    • Boolean - formati binari
    • Numeric - dati numerici, include Double
    • String - dati testuali
    • DateTime - dati di date e ore
    • Spatial - oggetti e punti spaziali
Preparazione dei dati in Alteryx

Dettagli del dataset

  • Esercizi pratici in Alteryx:
    • Vendite immobiliari di New York City
    • Un dataset per tutti gli esercizi
    • Analisi delle vendite più alte

Skyline di New York City

Preparazione dei dati in Alteryx

Passons à la pratique !

Preparazione dei dati in Alteryx

Preparing Video For Download...