PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark, Scala ile yazılmıştır
Spark’ta Python desteği için PySpark yayımlandı
Scala ile benzer hız ve hesaplama gücü
PySpark API’leri, Pandas ve Scikit-learn’e benzer
Spark işleri çalıştırmak için etkileşimli ortam
Hızlı etkileşimli prototipleme için yararlı
Spark shell’leri disk veya bellekteki veriyle etkileşimi sağlar
Üç Spark shell’i:
Scala için Spark-shell
Python için PySpark-shell
R için SparkR
PySpark shell, Python tabanlı komut satırı aracıdır
PySpark shell, veri bilimcilerin Spark veri yapılarıyla çalışmasını sağlar
PySpark shell, kümeye bağlanmayı destekler
SparkContext, Spark’a giriş noktasıdır
Giriş noktası, Spark kümesine bağlanma yoludur
Giriş noktası bir anahtar gibidir
PySpark’ta varsayılan SparkContext sc’dir
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() yöntemirdd = sc.parallelize([1,2,3,4,5])
textFile() yöntemirdd2 = sc.textFile("test.txt")
PySpark ile Big Data Temelleri