Buat Data Context

Pengantar Data Quality dengan Great Expectations

Davina Moossazadeh

Data Scientist

Apa itu kualitas data?

Seberapa layak suatu dataset untuk tujuan pemakaiannya

  • Kelengkapan
  • Akurasi
  • Validitas
  • Keunikan
  • Ketepatan waktu
  • Integritas
  • Konsistensi
  • dll.

Plot sebar dengan satu klaster nilai dan satu outlier,

1 https://nitin9809.medium.com/outlier-detection-and-treatment-part-1-aa0b09f60e50
Pengantar Data Quality dengan Great Expectations

Mengapa kualitas data penting?

Sampah masuk.

Model hebat menerima sampah sebagai masukan.

Sampah keluar.

Model hanya sebaik data yang masuk!

Pengantar Data Quality dengan Great Expectations

Apa itu Great Expectations?

Logo Great Expectations.

Great Expectations (GX) - Platform untuk mengelola kualitas data

  • GX Cloud - antarmuka web
  • GX Core - paket Python
Pengantar Data Quality dengan Great Expectations

Expectations

Expectation - Pernyataan terverifikasi tentang data

  • Bentuk dataset
  • Nilai null
  • Duplikat
  • Himpunan/rentang nilai
  • Format string
  • Distribusi data
  • Isu kualitas data
  • dll.

images-1.png

1 https://docs.greatexpectations.io/docs/core/define_expectations/create_an_expectation/ https://mathbitsnotebook.com/Algebra2/Statistics/STnormalDistribution.html
Pengantar Data Quality dengan Great Expectations

Data Contexts

Data Context - Titik masuk utama untuk penerapan GX

  • Konfigurasi dan metode untuk semua komponen pendukung GX
    • Data Sources
    • Expectation Suites
    • Checkpoints
    • Data Docs
    • Validation Results
    • Metrics
1 https://docs.greatexpectations.io/docs/core/set_up_a_gx_environment/create_a_data_context/
Pengantar Data Quality dengan Great Expectations

Mengimpor GX

Impor Great Expectations dengan alias gx:

import great_expectations as gx
Pengantar Data Quality dengan Great Expectations

Membuat Data Context

Gunakan get_context() untuk membuat Data Context:

context = gx.get_context()

print(context)
{ "analytics_enabled": true,
  "checkpoint_store_name": "default_checkpoint_store",
  "config_variables_file_path": "uncommitted/config_variables.yml",
  "config_version": 4.0,
  "data_context_id": "5b407294-b17c-43e3-aa5f-4f8a4741e772",
  "expectations_store_name": "default_expectations_store",
  "fluent_datasources": {},
  "plugins_directory": "plugins/",
  "stores": {},
  "validation_results_store_name": "default_validations_store" }
Pengantar Data Quality dengan Great Expectations

Ayo berlatih!

Pengantar Data Quality dengan Great Expectations

Preparing Video For Download...