Hugging Face Datasets

Trabajar con Hugging Face

Jacob H. Marquez

Lead Data Engineer

Conjuntos de datos de Hugging Face 1

1 https://huggingface.co/datasets
Trabajar con Hugging Face

Conjuntos de datos de Hugging Face 2

1 https://huggingface.co/datasets
Trabajar con Hugging Face
Trabajar con Hugging Face
Trabajar con Hugging Face
Trabajar con Hugging Face

Instalar el paquete Datasets

 

pip install datasets

  • 🌐 Accede a
  • 📥 Descarga
  • 🔧 Usa
  • 🤝 Comparte

Conjuntos de datos de Hugging Face

1 https://huggingface.co/docs/datasets/loading
Trabajar con Hugging Face

Descargar un dataset

from datasets import load_dataset

data = load_dataset("IVN-RIN/BioBERT_Italian")

$$

Parámetro split

data = load_dataset("IVN-RIN/BioBERT_Italian", split="train")
1 https://huggingface.co/docs/datasets/v2.15.0/loading
Trabajar con Hugging Face

Formatos de datasets Apache Arrow

 

Conjunto de datos Apache Arrow

1 https://arrow.apache.org/overview/
Trabajar con Hugging Face

Manipulación de datos

data = load_dataset("IVN-RIN/BioBERT_Italian", split="train")


# Filtrar el patrón " bella " filtered = data.filter(lambda row: " bella " in row['text']) print(filtered)
Dataset({
    features: ['text'],
    num_rows: 1122
})
1 https://huggingface.co/docs/datasets/process#select-and-filter
Trabajar con Hugging Face

Manipulación de datos

# Seleccionar las dos primeras filas
sliced = filtered.select(range(2))


print(sliced)
Dataset({features: ['text'], num_rows: 2})
# Extraer 'text' de la primera fila
print(sliced[0]['text'])
Concentrazioni atmosferiche di PCDD/PCDF...
1 https://huggingface.co/docs/datasets/process#select-and-filter
Trabajar con Hugging Face

¡Vamos a practicar!

Trabajar con Hugging Face

Preparing Video For Download...