Bir veri hattını elle test etme

Python ile ETL ve ELT

Jake Roach

Data Engineer

Veri hatlarını test etme

Veri hatları kapsamlı biçimde test edilmelidir

  • Verinin beklendiği gibi çıkarıldığını, dönüştürüldüğünü ve yüklendiğini doğrulayın

$$

Hattı doğrulamak, yayım sonrası bakım çabasını azaltır

  • Veri kalitesi sorunlarını bulun ve düzeltin
  • Veri güvenilirliğini artırır

Veri hatlarını test etmek için araçlar ve teknikler

  • Uçtan uca test
  • "Kontrol noktalarında" veriyi doğrulama
  • Birim testi
Python ile ETL ve ELT

Test ve üretim ortamları

Veri hatlarını oluşturmak ve çalıştırmak için test ve üretim ortamları.

Python ile ETL ve ELT

Bir hattı uçtan uca test etme

Bir veri hattının uçtan uca testi.

Uçtan uca test

  • Hattın tekrarlanan denemelerde çalıştığını doğrulayın
  • Hattın kontrol noktalarında veriyi doğrulayın
  • Akran değerlendirmesi yapın, geri bildirimi uygulayın
  • Tüketici erişimi ve çözüm memnuniyetini sağlayın
Python ile ETL ve ELT

Hattın kontrol noktalarını doğrulama

# Bir hattın parçası olarak veriyi çıkar, dönüştür, yükle
...

# Postgres veritabanındaki kullanıma sunulan veriye bakın
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)
print(loaded_data.shape)
(6438, 4)
print(loaded_data.head())
         timestamps      volume     open     close                         
1997-05-15 13:30:00  1443120000  0.121875  0.097917
1997-05-16 13:30:00   294000000  0.098438  0.086458
1997-05-19 13:30:00   122136000  0.088021  0.085417
Python ile ETL ve ELT

DataFrame'leri doğrulama

# Bir hattın parçası olarak veriyi çıkar, dönüştür, yükle
...

# Postgres veritabanındaki kullanıma sunulan veriye bakın
loaded_data = pd.read_sql("SELECT * FROM clean_stock_data", con=db_engine)

# İki DataFrame'i karşılaştırın.
print(clean_stock_data.equals(loaded_data))
True
Python ile ETL ve ELT

Hadi pratik yapalım!

Python ile ETL ve ELT

Preparing Video For Download...