Pembuatan Fitur

Rekayasa Fitur dengan PySpark

John Hogue

Lead Data Scientist

Mengapa membuat fitur baru?

Generasi

Mengalikan

Menjumlahkan

Mengurangkan

Membagi

Rekayasa Fitur dengan PySpark

Mengapa membuat fitur baru?

Plot Model Linear Panjang

Plot Model Linear Lebar

Rekayasa Fitur dengan PySpark

Menggabungkan Dua Fitur

Perkalian

# Creating a new feature, area by multiplying
df = df.withColumn('TSQFT', (df['WIDTH'] * df['LENGTH']))

Plot Model Linear Luas

Rekayasa Fitur dengan PySpark

Cara Lain Menggabungkan Dua Fitur

# Sum two columns
df = df.withColumn('TSQFT', (df['SQFTBELOWGROUND'] + df['SQFTABOVEGROUND']))
# Divide two columns
df = df.withColumn('PRICEPERTSQFT', (df['LISTPRICE'] / df['TSQFT']))
# Difference two columns
df = df.withColumn('DAYSONMARKET', datediff('OFFMARKETDATE', 'LISTDATE'))
Rekayasa Fitur dengan PySpark

Batasnya apa?

Automasi Fitur

  • FeatureTools & TSFresh
  • Ledakan Fitur
  • Orde Lebih Tinggi & Seterusnya?

Gambar futuristik

Rekayasa Fitur dengan PySpark

Teruskan dan kombinasikan!

Rekayasa Fitur dengan PySpark

Preparing Video For Download...