PySpark DataFrame’lerle etkileşim

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark’ta DataFrame işleçleri

  • DataFrame işlemleri: Dönüşümler ve Eylemler

  • DataFrame Dönüşümleri:

    • select(), filter(), groupby(), orderby(), dropDuplicates() ve withColumnRenamed()
  • DataFrame Eylemleri:

    • printSchema(), head(), show(), count(), columns ve describe()

    Düzeltme: printSchema() herhangi bir Spark dataset/dataframe için bir yöntemdir, eylem değildir

PySpark ile Big Data Temelleri

select() ve show() işlemleri

  • select() dönüşümü DataFrame’deki sütunları alt kümeye alır
df_id_age = test.select('Age')
  • show() eylemi DataFrame’de ilk 20 satırı yazdırır
df_id_age.show(3)
+---+
|Age|
+---+
| 17|
| 17|
| 17|
+---+
only showing top 3 rows
PySpark ile Big Data Temelleri

filter() ve show() işlemleri

  • filter() dönüşümü bir koşula göre satırları süzer
new_df_age21 = new_df.filter(new_df.Age > 21)
new_df_age21.show(3)
+-------+------+---+
|User_ID|Gender|Age|
+-------+------+---+
|1000002|     M| 55|
|1000003|     M| 26|
|1000004|     M| 46|
+-------+------+---+
only showing top 3 rows
PySpark ile Big Data Temelleri

groupby() ve count() işlemleri

  • groupby() bir değişkene göre gruplar
test_df_age_group = test_df.groupby('Age')
test_df_age_group.count().show(3)
+---+------+
|Age| count|
+---+------+
| 26|219587|
| 17|     4|
| 55| 21504|
+---+------+
only showing top 3 rows
PySpark ile Big Data Temelleri

orderby() dönüşümleri

  • orderby() bir veya daha çok sütuna göre DataFrame’i sıralar
test_df_age_group.count().orderBy('Age').show(3)
+---+-----+
|Age|count|
+---+-----+
|  0|15098|
| 17|    4|
| 18|99660|
+---+-----+
only showing top 3 rows
PySpark ile Big Data Temelleri

dropDuplicates()

  • dropDuplicates() bir DataFrame’deki yinelenen satırları kaldırır
test_df_no_dup = test_df.select('User_ID','Gender', 'Age').dropDuplicates()
test_df_no_dup.count()
5892
PySpark ile Big Data Temelleri

withColumnRenamed dönüşümleri

  • withColumnRenamed() DataFrame’de bir sütunu yeniden adlandırır
test_df_sex = test_df.withColumnRenamed('Gender', 'Sex')
test_df_sex.show(3)
+-------+---+---+
|User_ID|Sex|Age|
+-------+---+---+
|1000001|  F| 17|
|1000001|  F| 17|
|1000001|  F| 17|
+-------+---+---+
PySpark ile Big Data Temelleri

printSchema()

  • printSchema() DataFrame’deki sütun türlerini yazdırır
test_df.printSchema()
 |-- User_ID: integer (nullable = true)
 |-- Product_ID: string (nullable = true)
 |-- Gender: string (nullable = true)
 |-- Age: string (nullable = true)
 |-- Occupation: integer (nullable = true)
 |-- Purchase: integer (nullable = true)
PySpark ile Big Data Temelleri

columns eylemleri

  • columns operatörü bir DataFrame’in sütunlarını verir
test_df.columns
['User_ID', 'Gender', 'Age']
PySpark ile Big Data Temelleri

describe() eylemleri

  • describe() DataFrame’deki sayısal sütunların özet istatistiklerini hesaplar
test_df.describe().show()
+-------+------------------+------+------------------+
|summary|           User_ID|Gender|               Age|
+-------+------------------+------+------------------+
|  count|            550068|550068|            550068|
|   mean|1003028.8424013031|  null|30.382052764385495|
| stddev|1727.5915855307312|  null|11.866105189533554|
|    min|           1000001|     F|                 0|
|    max|           1006040|     M|                55|
+-------+------------------+------+------------------+
PySpark ile Big Data Temelleri

Hadi pratik yapalım!

PySpark ile Big Data Temelleri

Preparing Video For Download...