Ingestione dati

Progettare pipeline di forecasting per la produzione

Rami Krispin

Senior Manager, Data Science and Engineering

Processo ETL

Processo ETL

Progettare pipeline di forecasting per la produzione

Processo ETL - sorgente

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - estrazione

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - trasformazione

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - caricamento

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - validazione dati

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - integrità dei dati

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - logging

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - avvio nuova pipeline

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - aggiornare i dati normalizzati

Processo di ingestione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - verifica parità dei dati

Task Check API

Progettare pipeline di forecasting per la produzione

Processo ETL - metadati

Task Data Status

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh dei dati

Task Data Refresh

Progettare pipeline di forecasting per la produzione

Processo ETL - validazione dati

Task Data Validation

Progettare pipeline di forecasting per la produzione

Processo ETL - analisi dati

Task Analisi validazione dati

Progettare pipeline di forecasting per la produzione

Processo ETL - aggiungi i dati

Task Append the Data

Progettare pipeline di forecasting per la produzione

Processo ETL - refresh previsione

Task Refresh the Forecast

Progettare pipeline di forecasting per la produzione

Processo ETL - valutazione previsione

Task Score the Forecast

Progettare pipeline di forecasting per la produzione

Processo ETL - nessun aggiornamento

Task Validazione

Progettare pipeline di forecasting per la produzione

Processo ETL - errore di refresh

Task Validazione

Progettare pipeline di forecasting per la produzione

Processo ETL - errore di validazione

Task Validazione

Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

  • Schema dati
  • Range valori
  • Valori mancanti
  • Duplicati
  • Logica di business
Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

print(raw)
period    respondent    respondent-name    type    type-name    value    value-units
0    2025-05-01 00:00:00    US48    United States Lower 48    D    Demand    504242    
1    2025-04-30 23:00:00    US48    United States Lower 48    D    Demand    508099    
2    2025-04-30 22:00:00    US48    United States Lower 48    D    Demand    508323    
3    2025-04-30 21:00:00    US48    United States Lower 48    D    Demand    500551    
4    2025-04-30 20:00:00    US48    United States Lower 48    D    Demand    492240    

Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

import pointblank as pb

table_schema = pb.Schema( columns=[ ("index", "datetime64[ns]"), ("respondent", "object"), ("respondent-name", "object"), ("type", "object"), ("type-name", "object"), ("value", "int64"), ("value-units", "object") ] )
Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

validation = (pb.Validate(data=raw,
              tbl_name="US48 Data Validation",
              label="Data Refresh",
              thresholds=pb.Thresholds(warning=0.2, error=0, critical=0.1))

.col_schema_match(schema=table_schema)
.col_vals_gt(columns="value", value=0)
.col_vals_in_set(columns="respondent", set = ["US48"]) .col_vals_in_set(columns="type", set = ["D"])
.col_vals_not_null(columns=["period", "value"])
.rows_distinct()
.interrogate())
Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

Validazione dati

Progettare pipeline di forecasting per la produzione

Controlli di validazione dati

print(validation.all_passed())
True
Progettare pipeline di forecasting per la produzione

¡Vamos a practicar!

Progettare pipeline di forecasting per la produzione

Preparing Video For Download...