Persiapan data

Memahami Ilmu Data

Hadrien Lacroix

Content Developer, DataCamp

Alur kerja data

Alur kerja ilmu data

Memahami Ilmu Data

Mengapa menyiapkan data?

  • Data dunia nyata itu berantakan.
  • Persiapan dilakukan untuk mencegah:
    • error
    • hasil yang salah
    • algoritma bias

Menyiapkan sup

Memahami Ilmu Data

Mari kita mulai membersihkan

Sara Lis Hadrien Lis
Usia "27" "30" "30"
Ukuran 1.77. 5.58. 1.80. 5.58.
Negara "Belgia" "USA" "FR" "USA"

pengikis-pembersih-jendela

Memahami Ilmu Data

Data yang rapi

Sebelum

$$

Sara Lis Hadrien Lis
Usia "27" "30" "30"
Ukuran 1.77. 5.58. 1.80. 5.58.
Negara "Belgia" "USA" "FR" "USA"

folded-laundry

Memahami Ilmu Data

Output data yang rapi

Sebelum

$$

Sara Lis Hadrien Lis
Usia "27" "30" "30"
Ukuran 1.77. 5.58. 1.80. 5.58.
Negara "Belgium" "USA" "FR" "USA"

Setelah

$$

Nama Usia Ukuran Negara
Sara "26" 1.78. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"
Lis "30" 5.58. "USA"
Memahami Ilmu Data

Hapus duplikat

Sebelum

$$

Nama Usia Ukuran Negara
Sara "27" 1.77. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"
Lis "30" 5.58. "USA"

ceri ganda

Memahami Ilmu Data

Hapus output duplikat|

Sebelum

$$

Nama Usia Ukuran Negara
Sara "27" 1.77. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"
Lis "30" 5.58. "USA"

Setelah

$$

Nama Usia Ukuran Negara
Sara "27" 1.77. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"
Memahami Ilmu Data

ID Unik

Sebelum

$$

Nama Usia Ukuran Negara
Sara "27" 1.77. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"

bebek ungu dengan bebek kuning

Memahami Ilmu Data

ID Unik Output |

Sebelum

$$

Nama Usia Ukuran Negara
Sara "27" 1.77. "Belgium"
Lis "30" 5.58. "USA"
Hadrien 1.80. "FR"

Setelah

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgium"
1 Lis "30" 5.58. "USA"
2 Hadrien 1.80. "FR"
Memahami Ilmu Data

Homogenitas

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgium"
1 Lis "30" 5.58. "USA"
2 Hadrien 1.80. "FR"

Ikan-mas-kecil-menghadap-ikan-mas- besar

Memahami Ilmu Data

Homogenitas output |

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgium"
1 Lis "30" 5.58. "USA"
2 Hadrien 1.80. "FR"

Setelah

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgium"
1 Lis "30" 1.70 "USA"
2 Hadrien 1.80. "FR"
Memahami Ilmu Data

Homogenitas, sekali lagi

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgium"
1 Lis "30" 1.70 "USA"
2 Hadrien 1.80. "FR"

bendera-belgia

Memahami Ilmu Data

Homogenitas, sekali lagi output |

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "Belgia"
1 Lis "30" 1.70 "AS"
2 Hadrien 1.80. "FR"

Setelah

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "BE"
1 Lis "30" 1.70 "AS"
2 Hadrien 1.80. "FR"
Memahami Ilmu Data

Tipe data

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "BE"
1 Lis "30" 1.70 "AS"
2 Hadrien 1.80. "FR"

berbagai-tipe-pasta

Memahami Ilmu Data

Tipe data output|

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara "27" 1.77. "BE"
1 Lis "30" 1.70 "AS"
2 Hadrien 1.80. "FR"

Setelah

$$

ID Nama Usia Ukuran Negara
0 Sara 27 1.77. "BE"
1 Lis 30 1.70 "AS"
2 Hadrien 1.80. "FR"
Memahami Ilmu Data

Nilai yang hilang

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara 27 1.77. "BE"
1 Lis 30 1.70 "AS"
2 Hadrien 1.80. "FR"

Alasan:

  • entri data
  • error
  • nilai yang hilang yang valid

Solusi:

  • melakukan imputasi
  • drop
  • keep
Memahami Ilmu Data

Nilai yang hilang pada output |

Sebelum

$$

ID Nama Usia Ukuran Negara
0 Sara 27 1.77. "BE"
1 Lis 30 1.70 "USA"
2 Hadrien 1.80. "FR"

Setelah

$$

ID Nama Usia Ukuran Negara
0 Sara 27 1.77. "BE"
1 Lis 30 1.70 "AS"
2 Hadrien 28 1.80. "FR"
Memahami Ilmu Data

Ayo berlatih!

Memahami Ilmu Data

Preparing Video For Download...