De valoraciones a recomendaciones

Introducción a la ingeniería de datos

Vincent Vankrunkelsven

Data Engineer @ DataCamp

La tabla de recomendaciones

 

user_id course_id rating
1 1 4.8
1 74 4.78
1 21 4.5
2 32 4.9

 

Es la valoración estimada de un curso que el usuario aún no ha tomado.

Introducción a la ingeniería de datos

Técnicas de recomendación

 

  • Factorización matricial
  • Building Recommendation Engines with PySpark
Introducción a la ingeniería de datos

Transformación de sentido común

Diagrama de la tabla courses

 

Diagrama de la tabla rating

Recomendaciones

user_id course_id rating
1 1 4.8
1 74 4.78
1 21 4.5
2 32 4.9
Introducción a la ingeniería de datos

Valoraciones medias de cursos

Valoración media del curso

course_id avg_rating
1 4.8
74 4.78
21 4.5
32 4.9

 

Queremos recomendar cursos con alta valoración

Introducción a la ingeniería de datos

Usa el lenguaje adecuado

Valoración

user_id course_id programming_language rating
1 1 r 4.8
1 74 sql 4.78
1 21 sql 4.5
1 32 python 4.9

 

Recomendar curso de SQL para el usuario con id 1

Introducción a la ingeniería de datos

Recomendar cursos nuevos

Valoración

user_id course_id programming_language rating
1 1 r 4.8
1 74 sql 4.78
1 21 sql 4.5
1 32 python 4.9

 

No recomiendes combinaciones que ya estén en la tabla de valoraciones

Introducción a la ingeniería de datos

Nuestra transformación de recomendación

 

  • Usa la tecnología que el usuario más valoró
  • No recomiendes cursos ya valorados por el usuario
  • Recomienda los tres cursos mejor valorados de las combinaciones restantes
Introducción a la ingeniería de datos

Valoración

user_id course_id programming_language rating
1 12 sql 4.78
1 52 sql 4.5
1 32 r 4.9

 

Recomienda tres cursos de SQL mejor valorados que no sean 12 ni 52.

Introducción a la ingeniería de datos

¡Vamos a practicar!

Introducción a la ingeniería de datos

Preparing Video For Download...