Struktur data

Memahami Data Engineering

Hadrien Lacroix

Content Developer at DataCamp

Data terstruktur

  • Mudah dicari dan diatur
  • Model konsisten, baris dan kolom
  • Tipe terdefinisi
  • Dapat dikelompokkan membentuk relasi
  • Disimpan di basis data relasional
  • Sekitar 20% data terstruktur
  • Dibuat dan diquery dengan SQL
Memahami Data Engineering

Tabel karyawan

index last_name first_name role team full_time office
0 Thien Vivian Data Engineer Data Science 1 Belgium
1 Huong Julian Data Scientist Data Science 1 Belgium
2 Duplantier Norbert Software Developer Infrastructure 1 United Kingdom
3 McColgan Jeff Business Developer Sales 1 United States
4 Sanchez Rick Support Agent Customer Service 0 United States
Memahami Data Engineering

Basis data relasional

office address number city zipcode
Belgium Martelarenlaan 38 Leuven 3010
UK Old Street 207 London EC1V 9NR
USA 5th Ave 350 New York 10118
Memahami Data Engineering

Basis data relasional

index last_name first_name office address number city zipcode
0 Thien Vivian Belgium Martelarenlaan 38 Leuven 3010
1 Huong Julian Belgium Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert UK Old Street 207 London EC1V 9NR
3 McColgan Jeff USA 5th Ave 350 New York 10118
4 Sanchez Rick USA 5th Ave 350 New York 10118
Memahami Data Engineering

Data semi-terstruktur

  • Cukup mudah dicari dan diatur
  • Model konsisten, implementasi kurang kaku: tiap observasi bisa beda ukuran
  • Berbagai tipe
  • Dapat dikelompokkan, namun butuh lebih banyak usaha
  • Basis data NoSQL: JSON, XML, YAML
Memahami Data Engineering

Berkas JSON artis favorit

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Memahami Data Engineering

Data tidak terstruktur

  • Tidak mengikuti model, tidak bisa ditampung dalam baris dan kolom
  • Sulit dicari dan diatur
  • Biasanya berupa teks, suara, gambar, atau video
  • Umumnya disimpan di data lake, bisa muncul di gudang data atau basis data
  • Sebagian besar data tidak terstruktur
  • Dapat sangat berharga
Memahami Data Engineering

lirik

Memahami Data Engineering

spektrum lagu

Memahami Data Engineering

sampul album

Memahami Data Engineering

video musik

Memahami Data Engineering

Menambah sedikit struktur

  • Gunakan AI untuk mencari dan mengatur data tidak terstruktur
  • Tambahkan informasi agar menjadi semi-terstruktur
Memahami Data Engineering

Ringkasan

  • Data terstruktur
  • Data semi-terstruktur
  • Data tidak terstruktur
  • Perbedaan ketiganya
  • Berikan contoh
Memahami Data Engineering

Ayo berlatih!

Memahami Data Engineering

Preparing Video For Download...