Des notes aux recommandations

Introduction au data engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

La table des recommandations

 

user_id course_id rating
1 1 4.8
1 74 4.78
1 21 4.5
2 32 4.9

 

La note estimée d’un cours que l’utilisateur n’a pas encore suivi.

Introduction au data engineering

Techniques de recommandation

 

  • Factorisation de matrices
  • Building Recommendation Engines with PySpark
Introduction au data engineering

Transformation de bon sens

Schéma représentant la table courses

 

Schéma représentant la table rating

Recommandations

user_id course_id rating
1 1 4.8
1 74 4.78
1 21 4.5
2 32 4.9
Introduction au data engineering

Notes moyennes des cours

Note moyenne du cours

course_id avg_rating
1 4.8
74 4.78
21 4.5
32 4.9

 

Nous voulons recommander des cours bien notés

Introduction au data engineering

Choisir le bon langage

Note

user_id course_id programming_language rating
1 1 r 4.8
1 74 sql 4.78
1 21 sql 4.5
1 32 python 4.9

 

Recommander un cours SQL à l’utilisateur id 1

Introduction au data engineering

Recommander de nouveaux cours

Note

user_id course_id programming_language rating
1 1 r 4.8
1 74 sql 4.78
1 21 sql 4.5
1 32 python 4.9

 

Ne pas recommander les combinaisons déjà présentes dans la table des notes

Introduction au data engineering

Notre transformation de recommandation

 

  • Utiliser la technologie la plus notée par l’utilisateur
  • Ne pas recommander les cours déjà notés
  • Recommander les trois mieux notés parmi les restants
Introduction au data engineering

Note

user_id course_id programming_language rating
1 12 sql 4.78
1 52 sql 4.5
1 32 r 4.9

 

Recommander trois cours SQL les mieux notés, autres que 12 et 52.

Introduction au data engineering

Passons à la pratique !

Introduction au data engineering

Preparing Video For Download...