Spark SQL

Python ile Spark SQL'e Giriş

Mark Plutowski Phd

Data Scientist

SQL tablosu oluşturma ve sorgulama

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Dosyadan DataFrame yükleme

df = spark.read.csv(filename)
df = spark.read.csv(filename, header=True)
Python ile Spark SQL'e Giriş

SQL tablosu oluşturma ve sorgulama

df.createOrReplaceTempView("schedule")

spark.sql("SELECT * FROM schedule WHERE station = 'San Jose'") .show()
+--------+--------+-----+
|train_id| station| time|
+--------+--------+-----+
|     324|San Jose|9:05a|
|     217|San Jose|6:59a|
+--------+--------+-----+
Python ile Spark SQL'e Giriş

Tablo şemasını inceleme

result = spark.sql("SHOW COLUMNS FROM tablename")
result = spark.sql("SELECT * FROM tablename LIMIT 0")
result = spark.sql("DESCRIBE tablename")
result.show()
print(result.columns)
Python ile Spark SQL'e Giriş

Çerçeve

Python ile Spark SQL'e Giriş

Veri çerçevesi

Python ile Spark SQL'e Giriş

Tablo verisi

+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a| 
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     324|    Palo Alto|8:37a|
|     324|     San Jose|9:05a|
|     217|       Gilroy|6:06a|
|     217|   San Martin|6:15a|
|     217|  Morgan Hill|6:21a|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Python ile Spark SQL'e Giriş

iki dataframe

Python ile Spark SQL'e Giriş

iki dataframe birleştirildi

Python ile Spark SQL'e Giriş

tek dataframe

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 1

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 2

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 3

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 4

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 5

Python ile Spark SQL'e Giriş

bir dataframe bölünüyor 6

Python ile Spark SQL'e Giriş

dağıtık bir dataframe bölünüyor

Python ile Spark SQL'e Giriş

SQL

Python ile Spark SQL'e Giriş

Yapılandırılmış Sorgu Dili

Python ile Spark SQL'e Giriş

sorgulama

Python ile Spark SQL'e Giriş

dağıtık veri

Python ile Spark SQL'e Giriş

dağıtık veri + sorgu

Python ile Spark SQL'e Giriş

Sınırlandırılmış metin yükleme

Virgülle ayrılmış trainsched.txt dosyasını df adlı bir DataFrame'e yükler:

df = spark.read.csv("trainsched.txt", header=True)
Python ile Spark SQL'e Giriş

Sınırlandırılmış metin yükleme

df = spark.read.csv("trainsched.txt", header=True)
df.show()
+--------+-------------+-----+
|train_id|      station| time|
+--------+-------------+-----+
|     324|San Francisco|7:59a|
|     324|  22nd Street|8:03a|
|     324|     Millbrae|8:16a|
|     324|    Hillsdale|8:24a|
|     324| Redwood City|8:31a|
|     ...|          ...|  ...|
|     217| Blossom Hill|6:36a|
|     217|      Capitol|6:42a|
|     217|       Tamien|6:50a|
|     217|     San Jose|6:59a|
+--------+-------------+-----+
Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Pyspark Shell

Python ile Spark SQL'e Giriş

Pyspark Shell imleci

Python ile Spark SQL'e Giriş

Hadi pratik yapalım

Python ile Spark SQL'e Giriş

Preparing Video For Download...