Pertimbangan untuk data kategorikal

Analisis Data Eksploratif di Python

George Boorman

Curriculum Manager, DataCamp

Mengapa melakukan EDA?

  • Mendeteksi pola dan hubungan

 

 

  • Membuat pertanyaan atau hipotesis

 

 

  • Menyiapkan data untuk machine learning

Tanda tanya neon merah

1 Kredit gambar: https://unsplash.com/@simonesecci
Analisis Data Eksploratif di Python

Data representatif

  • Sampel mewakili populasi

Contoh:

  • Pendidikan vs pendapatan di AS
    • Tidak bisa gunakan data dari Prancis

Bendera AS

Bendera Prancis

1 Kredit gambar: https://unsplash.com/@cristina_glebova; https://unsplash.com/@nimbus_vulpis
Analisis Data Eksploratif di Python

Kelas kategorikal

  • Kelas = label

 

  • Survei sikap orang terhadap pernikahan
    • Status pernikahan
      • Lajang
      • Menikah
      • Bercerai
Analisis Data Eksploratif di Python

Ketidakseimbangan kelas

diagram batang yang menampilkan jumlah status pernikahan dalam sampel - 700 bercerai, 250 lajang, dan 50 menikah

Analisis Data Eksploratif di Python

Frekuensi kelas

print(planes["Destination"].value_counts())
Cochin       4391
Banglore     2773
Delhi        1219
New Delhi     888
Hyderabad     673
Kolkata       369
Name: Destination, dtype: int64
Analisis Data Eksploratif di Python

Frekuensi relatif kelas

  • 40% penerbangan domestik India berakhir di Delhi
planes["Destination"].value_counts(normalize=True)
Cochin       0.425773
Banglore     0.268884
Delhi        0.118200
New Delhi    0.086105
Hyderabad    0.065257
Kolkata      0.035780
Name: Destination, dtype: float64
  • Apakah sampel kita mewakili populasi (penerbangan domestik India)?
Analisis Data Eksploratif di Python

Tabulasi silang

Panggil pd-dot-crosstab

pd.crosstab(
Analisis Data Eksploratif di Python

Pilih indeks

Pilih kolom sebagai indeks

pd.crosstab(planes["Source"],
Analisis Data Eksploratif di Python

Pilih kolom

Pilih kolom

pd.crosstab(planes["Source"], planes["Destination"])
Analisis Data Eksploratif di Python

Tabulasi silang

Destination  Banglore  Cochin  Delhi  Hyderabad  Kolkata  New Delhi
Source                                                             
Banglore            0       0   1199          0        0        868
Chennai             0       0      0          0      364          0
Delhi               0    4318      0          0        0          0
Kolkata          2720       0      0          0        0          0
Mumbai              0       0      0        662        0          0
Analisis Data Eksploratif di Python

Memperluas tabulasi silang

Source Destination Median Price (IDR)
Banglore Delhi 4232.21
Banglore New Delhi 12114.56
Chennai Kolkata 3859.76
Delhi Cochin 9987.63
Kolkata Banglore 9654.21
Mumbai Hyderabad 3431.97
Analisis Data Eksploratif di Python

Nilai agregat dengan pd.crosstab()

pd.crosstab(planes["Source"], planes["Destination"],

values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Analisis Data Eksploratif di Python

Membandingkan sampel vs populasi

Source Destination Median Price (IDR) Median Price (dataset)
Banglore Delhi 4232.21 4823.0
Banglore New Delhi 12114.56 10976.50
Chennai Kolkata 3859.76 3850.0
Delhi Cochin 9987.63 10260.0
Kolkata Banglore 9654.21 9345.0
Mumbai Hyderabad 3431.97 3342.0
Analisis Data Eksploratif di Python

Ayo berlatih!

Analisis Data Eksploratif di Python

Preparing Video For Download...