Veri yapıları

Veri Mühendisliğini Anlamak

Hadrien Lacroix

Content Developer at DataCamp

Yapılandırılmış veri

  • Aramak ve düzenlemek kolaydır
  • Tutarlı model; satırlar ve sütunlar
  • Tanımlı türler
  • İlişkilendirilebilir
  • İlişkisel veritabanlarında saklanır
  • Verinin yaklaşık %20'si yapılandırılmıştır
  • SQL ile oluşturulur ve sorgulanır
Veri Mühendisliğini Anlamak

Çalışan tablosu

index last_name first_name role team full_time office
0 Thien Vivian Data Engineer Data Science 1 Belgium
1 Huong Julian Data Scientist Data Science 1 Belgium
2 Duplantier Norbert Software Developer Infrastructure 1 United Kingdom
3 McColgan Jeff Business Developer Sales 1 United States
4 Sanchez Rick Support Agent Customer Service 0 United States
Veri Mühendisliğini Anlamak

İlişkisel veritabanı

office address number city zipcode
Belgium Martelarenlaan 38 Leuven 3010
UK Old Street 207 London EC1V 9NR
USA 5th Ave 350 New York 10118
Veri Mühendisliğini Anlamak

İlişkisel veritabanı

index last_name first_name office address number city zipcode
0 Thien Vivian Belgium Martelarenlaan 38 Leuven 3010
1 Huong Julian Belgium Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert UK Old Street 207 London EC1V 9NR
3 McColgan Jeff USA 5th Ave 350 New York 10118
4 Sanchez Rick USA 5th Ave 350 New York 10118
Veri Mühendisliğini Anlamak

Yarı yapılandırılmış veri

  • Görece kolay aranır ve düzenlenir
  • Tutarlı model; daha esnek uygulama: farklı gözlemler farklı boyutlarda olabilir
  • Farklı türler
  • Gruplanabilir, ancak daha çok çaba ister
  • NoSQL veritabanları: JSON, XML, YAML
Veri Mühendisliğini Anlamak

Favori sanatçılar JSON dosyası

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Veri Mühendisliğini Anlamak

Yapısız veri

  • Bir modele uymaz; satır ve sütunlara sığmaz
  • Aramak ve düzenlemek zordur
  • Genelde metin, ses, resim veya videodur
  • Genelde data lake'lerde saklanır; veri ambarı veya veritabanlarında da olabilir
  • Verinin çoğu yapısızdır
  • Son derece değerli olabilir
Veri Mühendisliğini Anlamak

şarkı sözleri

Veri Mühendisliğini Anlamak

şarkı spektrumu

Veri Mühendisliğini Anlamak

albüm kapağı

Veri Mühendisliğini Anlamak

müzik videosu

Veri Mühendisliğini Anlamak

Biraz yapı ekleme

  • Yapısız veriyi aramak ve düzenlemek için yapay zekâ kullanın
  • Bilgi ekleyerek yarı yapılandırılmış hâle getirin
Veri Mühendisliğini Anlamak

Özet

  • Yapılandırılmış veri
  • Yarı yapılandırılmış veri
  • Yapısız veri
  • Üçü arasındaki farklar
  • Örnekler verin
Veri Mühendisliğini Anlamak

Hadi pratik yapalım!

Veri Mühendisliğini Anlamak

Preparing Video For Download...