PySpark: Python ile Spark

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark’a genel bakış

  • Apache Spark, Scala ile yazılmıştır

  • Spark’ta Python desteği için PySpark yayımlandı

  • Scala ile benzer hız ve hesaplama gücü

  • PySpark API’leri, Pandas ve Scikit-learn’e benzer

PySpark ile Big Data Temelleri

Spark shell nedir?

  • Spark işleri çalıştırmak için etkileşimli ortam

  • Hızlı etkileşimli prototipleme için yararlı

  • Spark shell’leri disk veya bellekteki veriyle etkileşimi sağlar

  • Üç Spark shell’i:

    • Scala için Spark-shell

    • Python için PySpark-shell

    • R için SparkR

PySpark ile Big Data Temelleri

PySpark shell

  • PySpark shell, Python tabanlı komut satırı aracıdır

  • PySpark shell, veri bilimcilerin Spark veri yapılarıyla çalışmasını sağlar

  • PySpark shell, kümeye bağlanmayı destekler

PySpark ile Big Data Temelleri

SparkContext’i anlama

  • SparkContext, Spark’a giriş noktasıdır

  • Giriş noktası, Spark kümesine bağlanma yoludur

  • Giriş noktası bir anahtar gibidir

  • PySpark’ta varsayılan SparkContext sc’dir

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
PySpark ile Big Data Temelleri

SparkContext’i inceleme

  • Sürüm: SparkContext sürümünü almak için
sc.version
2.3.1
  • Python Sürümü: SparkContext’in Python sürümünü almak için
sc.pythonVer
3.6
  • Master: Kümeyi belirten URL veya yerel mod için yerel dizesi (SparkContext)
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
PySpark ile Big Data Temelleri

PySpark’ta veri yükleme

  • SparkContext’in parallelize() yöntemi
rdd = sc.parallelize([1,2,3,4,5])
  • SparkContext’in textFile() yöntemi
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
PySpark ile Big Data Temelleri

Hadi pratik yapalım

PySpark ile Big Data Temelleri

Preparing Video For Download...