PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse
Bölüm 1: Büyük Veri temelleri ve dağıtık hesaplama çerçevesi olarak Spark’a giriş
Ana bileşenler: Spark Core ve yerleşik kütüphaneler — Spark SQL, Spark MLlib, GraphX ve Spark Streaming
PySpark: Spark görevlerini çalıştırmak için Apache Spark’ın Python API’si
PySpark shell: Python’da etkileşimli uygulama geliştirme
Spark kipleri: Yerel ve küme kipi
Bölüm 2: RDD’lere giriş, RDD özellikleri, RDD oluşturma yöntemleri ve RDD işlemleri (Dönüşümler ve Eylemler)
Bölüm 3: Spark SQL’e giriş, DataFrame soyutlaması, DataFrame oluşturma, işlemler ve DataFrame’lerle Büyük Veriyi görselleştirme
Bölüm 4: Spark MLlib’e giriş, Makine Öğreniminin üç C’si (Ortak filtreleme, Sınıflandırma ve Kümeleme)
PySpark ile Big Data Temelleri