Einführung in PySpark-DataFrames

Einführung in PySpark

Benjamin Schmidt

Data Engineer

Über DataFrames

DataFrames: Tabellarisches Format (Zeilen/Spalten)
Unterstützt SQL-ähnliche Operationen
So ähnlich wie ein Pandas-DataFrame oder ein SQL TABLE
Strukturierte Daten

DataFrame

Erstellen von DataFrames aus Dateien

# Create a DataFrame from CSV
census_df = spark.read.csv('path/to/census.csv', header=True, inferSchema=True)

Ausgeben des DataFrame

# Show the first 5 rows of the DataFrame
census_df.show()

   age  education.num marital.status         occupation income
0   90              9        Widowed                  ?  <=50K
1   82              9        Widowed    Exec-managerial  <=50K
2   66             10        Widowed                  ?  <=50K
3   54              4       Divorced  Machine-op-inspct  <=50K
4   41             10      Separated     Prof-specialty  <=50K

Ausgeben des DataFrame-Schemas

# Show the schema
census_df.printSchema()

Output:
root
 |-- age: integer (nullable = true)
 |-- education.num: integer (nullable = true)
 |-- marital.status: string (nullable = true)
 |-- occupation: string (nullable = true)
 |-- income: string (nullable = true)

Einfache Analysen mit PySpark DataFrames

# .count() will return the total row numbers in the DataFrame
row_count = census_df.count()
print(f'Number of rows: {row_count}')

# groupby() allows the use of sql-like aggregations
census_df.groupBy('gender').agg({'salary_usd': 'avg'}).show()

Andere Aggregatfunktionen sind:

sum()
min()
max()

Wichtige Funktionen für PySpark-Analysen

.select(): wählt bestimmte Spalten aus dem DataFrame aus
.filter(): filtert Zeilen nach bestimmten Kriterien
.groupBy(): Gruppiert Zeilen anhand einer oder mehreren Spalten
.agg(): Wendet Aggregatfunktionen auf gruppierte Daten an

Ein Beispiel für wichtige Funktionen

# Using filter and select, we can narrow down our DataFrame
filtered_census_df = census_df.filter(df['age'] > 50).select('age', 'occupation')
filtered_census_df.show()

Output
+---+------------------+
|age|       occupation |
+---+------------------+
| 90|                 ?|
| 82|   Exec-managerial|
| 66|                 ?|
| 54| Machine-op-inspct|
+---+------------------+

Lass uns üben!

Einführung in PySpark