Spark SQL

Introduzione a Spark SQL in Python

Mark Plutowski Phd

Data Scientist

Crea tabella SQL e interroga

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Carica un DataFrame da file

df = spark.read.csv(filename)
df = spark.read.csv(filename, header=True)
Introduzione a Spark SQL in Python

Crea tabella SQL e interroga

df.createOrReplaceTempView("schedule")

spark.sql("SELECT * FROM schedule WHERE station = 'San Jose'") .show()
+--------+--------+-----+
|train_id| station| time|
+--------+--------+-----+
|     324|San Jose|9:05a|
|     217|San Jose|6:59a|
+--------+--------+-----+
Introduzione a Spark SQL in Python

Ispezionare lo schema della tabella

result = spark.sql("SHOW COLUMNS FROM tablename")
result = spark.sql("SELECT * FROM tablename LIMIT 0")
result = spark.sql("DESCRIBE tablename")
result.show()
print(result.columns)
Introduzione a Spark SQL in Python

Frame

Introduzione a Spark SQL in Python

Data Frame

Introduzione a Spark SQL in Python

Dati tabellari

+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a| 
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     324|    Palo Alto|8:37a|
|     324|     San Jose|9:05a|
|     217|       Gilroy|6:06a|
|     217|   San Martin|6:15a|
|     217|  Morgan Hill|6:21a|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Introduzione a Spark SQL in Python

due dataframe

Introduzione a Spark SQL in Python

due dataframe concatenati

Introduzione a Spark SQL in Python

un dataframe

Introduzione a Spark SQL in Python

divisione di un dataframe 1

Introduzione a Spark SQL in Python

divisione di un dataframe 2

Introduzione a Spark SQL in Python

divisione di un dataframe 3

Introduzione a Spark SQL in Python

divisione di un dataframe 4

Introduzione a Spark SQL in Python

divisione di un dataframe 5

Introduzione a Spark SQL in Python

divisione di un dataframe 6

Introduzione a Spark SQL in Python

divisione di un dataframe distribuito

Introduzione a Spark SQL in Python

SQL

Introduzione a Spark SQL in Python

Structured Query Language

Introduzione a Spark SQL in Python

query

Introduzione a Spark SQL in Python

dati distribuiti

Introduzione a Spark SQL in Python

dati distribuiti + query

Introduzione a Spark SQL in Python

Caricare testo delimitato

Carica un file separato da virgole trainsched.txt in un DataFrame chiamato df:

df = spark.read.csv("trainsched.txt", header=True)
Introduzione a Spark SQL in Python

Caricare testo delimitato

df = spark.read.csv("trainsched.txt", header=True)
df.show()
+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a|
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     ...|          ...|  ...|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Pyspark Shell

Introduzione a Spark SQL in Python

Cursore Pyspark Shell

Introduzione a Spark SQL in Python

Ayo berlatih!

Introduzione a Spark SQL in Python

Preparing Video For Download...