PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse
Hacim, Çeşitlilik ve Hız
Hacim: Verinin boyutu
Çeşitlilik: Farklı kaynaklar ve biçimler
Hız: Verinin akış hızı
Kümeli hesaplama: Birden çok makinenin kaynaklarının bir araya getirilmesi
Paralel hesaplama: Tek bilgisayarda eşzamanlı hesaplama
Dağıtık hesaplama: Paralel çalışan düğümler (ağlı bilgisayarlar) topluluğu
Yığın işleme: İşi küçük parçalara bölüp ayrı makinelerde çalıştırma
Gerçek zamanlı işleme: Veriyi anında işleme
Hadoop/MapReduce: Java ile yazılmış, ölçeklenebilir ve hataya dayanıklı çerçeve
Açık kaynak
Yığın işleme
Apache Spark: Genel amaçlı ve çok hızlı küme hesaplama sistemi
Açık kaynak
Hem yığın hem gerçek zamanlı veri işleme
Not: Günümüzde Apache Spark, Hadoop/MapReduce’a tercih edilmektedir
Dağıtık küme hesaplama çerçevesi
Büyük veri kümeleri için verimli bellek içi hesaplamalar
Çok hızlı veri işleme çerçevesi
Java, Scala, Python, R ve SQL desteği sağlar

Yerel kip: Dizüstünüz gibi tek makine
Küme kipi: Önceden tanımlı makineler grubu
İş akışı: Yerel -> kümeler
Kod değişikliği gerekmez
PySpark ile Big Data Temelleri