Rekayasa Fitur untuk NLP di Python
Rounak Banik
Data Scientist
Kumpulan data Iris
| panjang sepal | lebar sepal | panjang petal | lebar petal | kelas |
|---|---|---|---|---|
| 6.3 | 2.9 | 5.6 | 1.8 | Iris-virginica |
| 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
| 5.6 | 2.9 | 3.6 | 1.3 | Iris-versicolor |
| 6.0 | 2.7 | 5.1 | 1.6 | Iris-versicolor |
| 7.2 | 3.6 | 6.1 | 2.5 | Iris-virginica |
| jenis kelamin |
|---|
| perempuan |
| laki-laki |
| perempuan |
| laki-laki |
| perempuan |
| ... |
| jenis kelamin | one-hot encoding |
|---|---|
| perempuan | → |
| laki-laki | → |
| perempuan | → |
| laki-laki | → |
| perempuan | → |
| ... | ... |
| jenis kelamin | one-hot encoding | sex_female | sex_male |
|---|---|---|---|
| perempuan | → | 1 | 0 |
| laki-laki | → | 0 | 1 |
| perempuan | → | 1 | 0 |
| laki-laki | → | 0 | 1 |
| perempuan | → | 1 | 0 |
| ... | ... | ... | ... |
# Import the pandas library import pandas as pd# Perform one-hot encoding on the 'sex' feature of df df = pd.get_dummies(df, columns=['sex'])
Kumpulan Data Ulasan Film
| ulasan | kelas |
|---|---|
| Film ini untuk pecinta anjing. Sangat mengharukan... | positif |
| Filmnya mudah dilupakan. Plotnya kurang... | negatif |
| Film tentang anjing yang benar-benar menakjubkan. Sangat memikat... | positif |
Reduction menjadi reductionreduction menjadi reduce| ulasan | kelas |
|---|---|
| Film ini untuk pecinta anjing. Sangat mengharukan... | positif |
| Filmnya mudah dilupakan. Plotnya kurang... | negatif |
| Film tentang anjing yang benar-benar menakjubkan. Sangat memikat... | positif |
| 0 | 1 | 2 | ... | n | kelas |
|---|---|---|---|---|---|
| 0.03 | 0.71 | 0.00 | ... | 0.22 | positif |
| 0.45 | 0.00 | 0.03 | ... | 0.19 | negatif |
| 0.14 | 0.18 | 0.00 | ... | 0.45 | positif |

| Kata | Kelas kata |
|---|---|
| I | Kata ganti |
| have | Verba |
| a | Artikel |
| dog | Nomina |

| Nomina | NER |
|---|---|
| Brian | Person |
| DataCamp | Organization |
Rekayasa Fitur untuk NLP di Python