PySpark: Python ile Spark

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark’a genel bakış

Apache Spark, Scala ile yazılmıştır
Spark’ta Python desteği için PySpark yayımlandı
Scala ile benzer hız ve hesaplama gücü
PySpark API’leri, Pandas ve Scikit-learn’e benzer

Spark shell nedir?

Spark işleri çalıştırmak için etkileşimli ortam
Hızlı etkileşimli prototipleme için yararlı
Spark shell’leri disk veya bellekteki veriyle etkileşimi sağlar
Üç Spark shell’i:
- Scala için Spark-shell
- Python için PySpark-shell
- R için SparkR

PySpark shell

PySpark shell, Python tabanlı komut satırı aracıdır
PySpark shell, veri bilimcilerin Spark veri yapılarıyla çalışmasını sağlar
PySpark shell, kümeye bağlanmayı destekler

SparkContext’i anlama

SparkContext, Spark’a giriş noktasıdır
Giriş noktası, Spark kümesine bağlanma yoludur
Giriş noktası bir anahtar gibidir
PySpark’ta varsayılan SparkContext sc’dir

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

SparkContext’i inceleme

Sürüm: SparkContext sürümünü almak için

sc.version

2.3.1

Python Sürümü: SparkContext’in Python sürümünü almak için

sc.pythonVer

3.6

Master: Kümeyi belirten URL veya yerel mod için yerel dizesi (SparkContext)

sc.master

local[*]

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

PySpark’ta veri yükleme

SparkContext’in parallelize() yöntemi

rdd = sc.parallelize([1,2,3,4,5])

SparkContext’in textFile() yöntemi

rdd2 = sc.textFile("test.txt")

¹ https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python

Hadi pratik yapalım

PySpark ile Big Data Temelleri

Preparing Video For Download...