Preparación de datos

Comprender la ciencia de datos

Hadrien Lacroix

Content Developer, DataCamp

Flujo de datos

Flujo de trabajo de la ciencia de datos

Comprender la ciencia de datos

¿Por qué preparar los datos?

  • Los datos de la vida real son confusos
  • La preparación se hace para prevenir:
    • errors
    • resultados incorrectos
    • algoritmos de polarización

preparar la sopa

Comprender la ciencia de datos

Empecemos a limpiar

Sara Lis Hadrien Lis
Edad ]( = 27) ]( = 30) ]( = 30)
Tamaño ]( = 1.77) ]( = 5.58) ]( = 1.80) ]( = 5.58)
Country Bélgica "USA" "FR" "USA"

rascador-limpia-ventanas

Comprender la ciencia de datos

Datos ordenados

Antes de

$$

Sara Lis Hadrien Lis
Edad ]( = 27) ]( = 30) ]( = 30)
Tamaño ]( = 1.77) ]( = 5.58) ]( = 1.80) ]( = 5.58)
Country Bélgica "USA" "FR" "USA"

lavandería plegada

Comprender la ciencia de datos

Salida de datos ordenada

Antes de

$$

Sara Lis Hadrien Lis
Edad ]( = 27) ]( = 30) ]( = 30)
Tamaño ]( = 1.77) ]( = 5.58) ]( = 1.80) ]( = 5.58)
Country Bélgica "USA" "FR" "USA"

Después de

$$

Nombre Edad Tamaño Country
Sara ]( = 26) ]( = 1.78) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"
Lis ]( = 30) ]( = 5.58) "USA"
Comprender la ciencia de datos

Eliminar duplicados

Antes de

$$

Nombre Edad Tamaño Country
Sara ]( = 27) ]( = 1.77) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"
Lis ]( = 30) ]( = 5.58) "USA"

doble-cereza

Comprender la ciencia de datos

Eliminar duplicados | salida

Antes de

$$

Nombre Edad Tamaño Country
Sara ]( = 27) ]( = 1.77) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"
Lis ]( = 30) ]( = 5.58) "USA"

Después de

$$

Nombre Edad Tamaño Country
Sara ]( = 27) ]( = 1.77) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"
Comprender la ciencia de datos

Único ID

Antes de

$$

Nombre Edad Tamaño Country
Sara ]( = 27) ]( = 1.77) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"

pato-morado-con-pato-amarillo

Comprender la ciencia de datos

Salida única ID |

Antes de

$$

Nombre Edad Tamaño Country
Sara ]( = 27) ]( = 1.77) Bélgica
Lis ]( = 30) ]( = 5.58) "USA"
Hadrien ]( = 1.80) "FR"

Después de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 5.58) "USA"
2 Hadrien ]( = 1.80) "FR"
Comprender la ciencia de datos

Homogeneidad

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 5.58) "USA"
2 Hadrien ]( = 1.80) "FR"

small-goldfish-facing-large-goldfish

Comprender la ciencia de datos

Homogeneidad | salida

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 5.58) "USA"
2 Hadrien ]( = 1.80) "FR"

Después de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 1.70) "USA"
2 Hadrien ]( = 1.80) "FR"
Comprender la ciencia de datos

Homogeneidad, de nuevo

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 1.70) "USA"
2 Hadrien ]( = 1.80) "FR"

belgian-flag

Comprender la ciencia de datos

Homogeneidad, de nuevo | output

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) Bélgica
1 Lis ]( = 30) ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"

Después de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) "BE"
1 Lis ]( = 30) ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"
Comprender la ciencia de datos

Tipos de datos

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) "BE"
1 Lis ]( = 30) ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"

different-types-of-pasta

Comprender la ciencia de datos

Tipos de datos | salida

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara ]( = 27) ]( = 1.77) "BE"
1 Lis ]( = 30) ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"

Después de

$$

ID Nombre Edad Tamaño Country
0 Sara 27 ]( = 1.77) "BE"
1 Lis 30 ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"
Comprender la ciencia de datos

Valores ausentes

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara 27 ]( = 1.77) "BE"
1 Lis 30 ]( = 1.70) "US"
2 Hadrien ]( = 1.80) "FR"

Razones:

  • introducción de datos
  • ¡Error!
  • valor omitido válido

Soluciones

  • imputar
  • soltar
  • guarda
Comprender la ciencia de datos

Valores perdidos | salida

Antes de

$$

ID Nombre Edad Tamaño Country
0 Sara 27 ]( = 1.77) "BE"
1 Lis 30 ]( = 1.70) "USA"
2 Hadrien ]( = 1.80) "FR"

Después de

$$

ID Nombre Edad Tamaño Country
0 Sara 27 ]( = 1.77) "BE"
1 Lis 30 ]( = 1.70) "US"
2 Hadrien 28 ]( = 1.80) "FR"
Comprender la ciencia de datos

¡Vamos a practicar!

Comprender la ciencia de datos

Preparing Video For Download...