Veri depolama

Veritabanı Tasarımı

Lis Sulmont

Curriculum Manager

Veriyi yapılandırma

1. Yapılandırılmış veri  

  • Bir şemayı izler
  • Veri türleri ve ilişkiler tanımlıdır

ör., SQL, ilişkisel veritabanındaki tablolar

2. Yapılandırılmamış veri  

  • Şemasız
  • Dünyadaki verinin çoğunu oluşturur

ör., fotoğraflar, sohbet günlükleri, MP3

3. Yarı yapılandırılmış veri

  • Genel bir şemayı izlemez
  • Kendi kendini tanımlayan yapı

ör., NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Veritabanı Tasarımı

Veriyi yapılandırma

Yapılandırılmış ve yapılandırılmamış veri arasındaki yelpazeyi gösteren diyagram

1 Sam Oth'un Çiçek görseli ve Nick Jenkins'in Veritabanı Diyagramı, Wikimedia Commons üzerinden https://commons.wikimedia.org/wiki/File:Languages_xml.png
Veritabanı Tasarımı

Geleneksel veritabanlarının ötesinde veri depolama

  • Geleneksel veritabanları
    • Gerçek zamanlı ilişkisel yapılandırılmış veriyi depolamak için ⟶ OLTP
  • Veri ambarları
    • Arşivlenmiş yapılandırılmış veriyi analiz etmek için ⟶ OLAP
  • Data lake'ler
    • Tüm veri yapıları için depolama = esneklik ve ölçeklenebilirlik
    • Büyük veri analizi için
Veritabanı Tasarımı

Veri ambarları

  • Analitik için optimize – OLAP
    • Okuma/toplama için düzenlenmiş
    • Genelde salt okunur
  • Birden çok kaynaktan veri içerir
  • Yoğun Paralel İşleme (MPP)
  • Genelde denormalize şema ve boyutsal modelleme kullanır

Veri martları

  • Veri ambarlarının alt kümesi
  • Belirli bir konuya adanmış

Amazon Redshift, Google BigQuery ve Azure SQL Data Warehouse

Bir veri ambarının alt kümesi olarak veri martı

Veritabanı Tasarımı

Data lake'ler

  • Daha düşük maliyetle tüm veri türlerini depolar:
    • ör. ham, operasyonel veritabanları, IoT günlükleri, gerçek zamanlı, ilişkisel/ilişkisiz
  • Tüm veriyi tutar; petabaytlara çıkabilir
  • Yazarken şema yerine okurken şema (schema-on-read)
  • Kataloglanmazsa veri bataklığına dönüşür
  • Büyük veri analitiği için Apache Spark ve Hadoop gibi servisler kullanılır
    • Derin öğrenme ve veri keşfi için uygundur; çok veri gerektirir

Amazon, Google ve Microsoft Data Lake çözümleri sunar

Veritabanı Tasarımı

ETL

ELT

Veritabanı Tasarımı

Hadi pratik yapalım!

Veritabanı Tasarımı

Preparing Video For Download...