Introductie tot Natural Language Processing in R
Kasey Jones
Research Data Scientist
NLP:
Onderwerpen:
words <- c("DW-40", "Mike's Oil", "5w30", "Joe's Gas", "Unleaded", "Plus-89")
# Cijfers vinden
grep("\\d", words, value = TRUE)
[1] 1 3 6
# Apostroffen vinden
grep("\\'", words, value = TRUE)
[1] "Mike's Oil" "Joe's Gasoline"
| Pattern | Tekstmatches | R-voorbeeld | Tekstvoorbeeld |
|---|---|---|---|
| \w | Alfanumeriek teken | gregexpr(pattern ='\w', <text>) | a |
| \d | Cijfer | gregexpr(pattern ='\d', text) | 1 |
| \w+ | Alfanumeriek, elke lengte | gregexpr(pattern ='\w+', text) | woord |
| \d+ | Cijfers, elke lengte | gregexpr(pattern ='\d+', text) | 1234 |
| \s | Spaties | gregexpr(pattern ='\s', text) | ' ' |
| \S | Niet-spatie | gregexpr(pattern ='\S', text) | woord |
| Functie | Doel | Syntax |
|---|---|---|
| grep | Zoek overeenkomsten met het patroon in een vector | grep(pattern ='\w', x = <vector>, value = F) |
| gsub | Vervangt alle matches van een string/vector | gsub(pattern ='\d+', replacement = "", x = <vector>) |
Introductie tot Natural Language Processing in R