Python ile NLP için Özellik Mühendisliği
Rounak Banik
Data Scientist
Iris veri kümesi
| çanak yaprak uzunluğu | çanak yaprak genişliği | taç yaprak uzunluğu | taç yaprak genişliği | sınıf |
|---|---|---|---|---|
| 6.3 | 2.9 | 5.6 | 1.8 | Iris-virginica |
| 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
| 5.6 | 2.9 | 3.6 | 1.3 | Iris-versicolor |
| 6.0 | 2.7 | 5.1 | 1.6 | Iris-versicolor |
| 7.2 | 3.6 | 6.1 | 2.5 | Iris-virginica |
| cinsiyet |
|---|
| kadın |
| erkek |
| kadın |
| erkek |
| kadın |
| ... |
| cinsiyet | one-hot kodlama |
|---|---|
| kadın | → |
| erkek | → |
| kadın | → |
| erkek | → |
| kadın | → |
| ... | ... |
| cinsiyet | one-hot kodlama | cinsiyet_kadın | cinsiyet_erkek |
|---|---|---|---|
| kadın | → | 1 | 0 |
| erkek | → | 0 | 1 |
| kadın | → | 1 | 0 |
| erkek | → | 0 | 1 |
| kadın | → | 1 | 0 |
| ... | ... | ... | ... |
# Import the pandas library import pandas as pd# Perform one-hot encoding on the 'sex' feature of df df = pd.get_dummies(df, columns=['sex'])
Film İnceleme Veri Kümesi
| inceleme | sınıf |
|---|---|
| Bu film köpek sevenler için. Çok dokunaklı... | olumlu |
| Film unutulabilir. Hikâye zayıftı... | olumsuz |
| Köpekler hakkında gerçekten harika bir film. Sürükleyici... | olumlu |
Reduction → reductionreduction → reduce| inceleme | sınıf |
|---|---|
| Bu film köpek sevenler için. Çok dokunaklı... | olumlu |
| Film unutulabilir. Hikâye zayıftı... | olumsuz |
| Köpekler hakkında gerçekten harika bir film. Sürükleyici... | olumlu |
| 0 | 1 | 2 | ... | n | sınıf |
|---|---|---|---|---|---|
| 0.03 | 0.71 | 0.00 | ... | 0.22 | olumlu |
| 0.45 | 0.00 | 0.03 | ... | 0.19 | olumsuz |
| 0.14 | 0.18 | 0.00 | ... | 0.45 | olumlu |

| Kelime | Sözcük türü |
|---|---|
| I | Zamir |
| have | Fiil |
| a | Artikel |
| dog | İsim |

| İsim | Varlık türü |
|---|---|
| Brian | Kişi |
| DataCamp | Kuruluş |
Python ile NLP için Özellik Mühendisliği