Spark SQL

Pengantar Spark SQL dalam Python

Mark Plutowski Phd

Data Scientist

Buat tabel SQL dan lakukan kueri

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Muat DataFrame dari file

df = spark.read.csv(filename)
df = spark.read.csv(filename, header=True)
Pengantar Spark SQL dalam Python

Buat tabel SQL dan lakukan kueri

df.createOrReplaceTempView("schedule")

spark.sql("SELECT * FROM schedule WHERE station = 'San Jose'") .show()
+--------+--------+-----+
|train_id| station| time|
+--------+--------+-----+
|     324|San Jose|9:05a|
|     217|San Jose|6:59a|
+--------+--------+-----+
Pengantar Spark SQL dalam Python

Memeriksa skema tabel

result = spark.sql("SHOW COLUMNS FROM tablename")
result = spark.sql("SELECT * FROM tablename LIMIT 0")
result = spark.sql("DESCRIBE tablename")
result.show()
print(result.columns)
Pengantar Spark SQL dalam Python

Frame

Pengantar Spark SQL dalam Python

Data Frame

Pengantar Spark SQL dalam Python

Data tabular

+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a| 
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     324|    Palo Alto|8:37a|
|     324|     San Jose|9:05a|
|     217|       Gilroy|6:06a|
|     217|   San Martin|6:15a|
|     217|  Morgan Hill|6:21a|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Pengantar Spark SQL dalam Python

dua dataframe

Pengantar Spark SQL dalam Python

dua dataframe digabung

Pengantar Spark SQL dalam Python

satu dataframe

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 1

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 2

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 3

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 4

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 5

Pengantar Spark SQL dalam Python

memisah sebuah dataframe 6

Pengantar Spark SQL dalam Python

memisah sebuah dataframe terdistribusi

Pengantar Spark SQL dalam Python

SQL

Pengantar Spark SQL dalam Python

Structured Query Language

Pengantar Spark SQL dalam Python

menjalankan kueri

Pengantar Spark SQL dalam Python

data terdistribusi

Pengantar Spark SQL dalam Python

data terdistribusi + kueri

Pengantar Spark SQL dalam Python

Memuat teks bertanda batas

Memuat file dipisahkan koma trainsched.txt ke DataFrame bernama df:

df = spark.read.csv("trainsched.txt", header=True)
Pengantar Spark SQL dalam Python

Memuat teks bertanda batas

df = spark.read.csv("trainsched.txt", header=True)
df.show()
+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a|
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     ...|          ...|  ...|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Pyspark Shell

Pengantar Spark SQL dalam Python

Kursor Pyspark Shell

Pengantar Spark SQL dalam Python

Ayo berlatih!

Pengantar Spark SQL dalam Python

Preparing Video For Download...