Databricks gebruiken voor machine learning

Databricks-concepten

Kevin Barlow

Data Practitioner

Levenscyclus van machine learning

Levenscyclus van machine learning

1 https://www.datacamp.com/blog/machine-learning-lifecycle-explained
Databricks-concepten

Planning en voorbereiding

ML-levenscyclus - EDA

Databricks-concepten

Plannen voor machine learning

Wat heb ik?

  1. Databeschikbaarheid
  2. Zakelijke vereisten
  3. Data scientists/data-analisten

Datateam en resources

Wat wil ik?

  1. Use-cases
  2. Juridische en security-compliance
  3. Zakelijke outcomes

Zakelijke outcomes

Databricks-concepten

ML Runtime

  • Uitbreiding van Databricks-compute
  • Geoptimaliseerd voor ML-toepassingen
  • Bevat de meest gebruikte libraries en frameworks
    • scikit-learn, SparkML, TensorFlow
    • MLFlow
  • Werkt met cluster library management

Databricks ML Runtime

Databricks-concepten

Exploratory Data Analysis

import pandas as pd
pd.describe(df)
# Spark DF
df.summary()
dbutils.data.summarize()
import bamboolib as bam
df

EDA in Databricks

Databricks-concepten

Featuretabellen en feature stores

Rauwe data
count category price shelf_loc rating
4 horror 12.50 end 3
6 romance 13.99 top 4.5
12 sci-fi 16.50 bottom 5
31 romance 9.99 bottom 3.5
23 fantasy 24.99 top 4
18 horror 19.99 end 2.5
19 cooking 17.50 end 4.5
7 fantasy 12.99 top 3
37 sci-fi 14.99 bottom 5
Featuretabel
count category price shelf_loc rating
4 1 12.50 1 3
6 2 13.99 2 4.5
12 3 16.50 3 5
31 2 9.99 3 3.5
23 4 24.99 2 4
18 1 19.99 1 2.5
19 5 17.50 1 4.5
7 4 12.99 2 3
37 3 14.99 3 5
Databricks-concepten

Databricks Feature Store

  • Gecentraliseerde opslag voor gefeaturede datasets
  • Features voor ML-modellen makkelijk vinden en hergebruiken
  • Upstream- en downstream-herkomst

Databricks Feature Store

from databricks import feature_store

fs = feature_store.FeatureStoreClient()

fs.create_table(
    name=table_name,
    primary_keys=["wine_id"],
    df=features_df,
    schema=features_df.schema,
    description="wine features"
)
Databricks-concepten

Laten we oefenen!

Databricks-concepten

Preparing Video For Download...