Pengantar rekayasa fitur NLP

Rekayasa Fitur untuk NLP di Python

Rounak Banik

Data Scientist

Data numerik

Kumpulan data Iris

panjang sepal lebar sepal panjang petal lebar petal kelas
6.3 2.9 5.6 1.8 Iris-virginica
4.9 3.0 1.4 0.2 Iris-setosa
5.6 2.9 3.6 1.3 Iris-versicolor
6.0 2.7 5.1 1.6 Iris-versicolor
7.2 3.6 6.1 2.5 Iris-virginica
Rekayasa Fitur untuk NLP di Python

One-hot encoding

jenis kelamin
perempuan
laki-laki
perempuan
laki-laki
perempuan
...
Rekayasa Fitur untuk NLP di Python

One-hot encoding

jenis kelamin one-hot encoding
perempuan
laki-laki
perempuan
laki-laki
perempuan
... ...
Rekayasa Fitur untuk NLP di Python

One-hot encoding

jenis kelamin one-hot encoding sex_female sex_male
perempuan 1 0
laki-laki 0 1
perempuan 1 0
laki-laki 0 1
perempuan 1 0
... ... ... ...
Rekayasa Fitur untuk NLP di Python

One-hot encoding dengan pandas

# Import the pandas library
import pandas as pd

# Perform one-hot encoding on the 'sex' feature of df df = pd.get_dummies(df, columns=['sex'])
Rekayasa Fitur untuk NLP di Python

Data tekstual

Kumpulan Data Ulasan Film

ulasan kelas
Film ini untuk pecinta anjing. Sangat mengharukan... positif
Filmnya mudah dilupakan. Plotnya kurang... negatif
Film tentang anjing yang benar-benar menakjubkan. Sangat memikat... positif
Rekayasa Fitur untuk NLP di Python

Pra-pemrosesan teks

  • Ubah ke huruf kecil
    • Contoh: Reduction menjadi reduction
  • Ubah ke bentuk dasar
    • Contoh: reduction menjadi reduce
Rekayasa Fitur untuk NLP di Python

Vektorisasi

ulasan kelas
Film ini untuk pecinta anjing. Sangat mengharukan... positif
Filmnya mudah dilupakan. Plotnya kurang... negatif
Film tentang anjing yang benar-benar menakjubkan. Sangat memikat... positif
Rekayasa Fitur untuk NLP di Python

Vektorisasi

0 1 2 ... n kelas
0.03 0.71 0.00 ... 0.22 positif
0.45 0.00 0.03 ... 0.19 negatif
0.14 0.18 0.00 ... 0.45 positif
Rekayasa Fitur untuk NLP di Python

Fitur dasar

  • Jumlah kata
  • Jumlah karakter
  • Rata-rata panjang kata
  • Tweet

Tweet Silverado Records

Rekayasa Fitur untuk NLP di Python

Penandaan POS

Kata Kelas kata
I Kata ganti
have Verba
a Artikel
dog Nomina
Rekayasa Fitur untuk NLP di Python

Named Entity Recognition

  • Apakah nomina merujuk ke orang, organisasi, atau negara?

Seorang orang, bendera negara, dan logo TED

Nomina NER
Brian Person
DataCamp Organization
Rekayasa Fitur untuk NLP di Python

Konsep yang dibahas

  • Pra-pemrosesan teks
  • Fitur dasar
  • Fitur kata
  • Vektorisasi
Rekayasa Fitur untuk NLP di Python

Ayo berlatih!

Rekayasa Fitur untuk NLP di Python

Preparing Video For Download...