Een R-corpus begrijpen

Introductie tot Natural Language Processing in R

Kasey Jones

Data Scientist

Corpora

  • Verzamelingen documenten met natuurlijke taal
  • Uit het tm-pakket als corpus
  • VCorpus – meest gebruikte vorm
1 https://www.rdocumentation.org/packages/tm/versions/0.7-8/topics/Corpus
Introductie tot Natural Language Processing in R

Inhoud van een VCorpus: metadata

library(tm)
data("acq")
acq[[1]]$meta
  author       : character(0)
  datetimestamp: 1987-02-26 15:18:06
  heading      : COMPUTER TERMINAL SYSTEMS <CPML> COMPLETES SALE
  id           : 10
  language     : en
  origin       : Reuters-21578 XML
  ...          : ...
1 http://www.daviddlewis.com/resources/testcollections/reuters21578/
Introductie tot Natural Language Processing in R

Inhoud van een VCorpus: metadata

library(tm)
data("acq")
acq[[1]]$meta$places
[1] "usa"
Introductie tot Natural Language Processing in R

Inhoud van een VCorpus: content

acq[[1]]$content
[1] "Computer Terminal Systems Inc said it has completed ...
acq[[2]]$content
[1] "Ohio Mattress Co said its first quarter, ending ...
Introductie tot Natural Language Processing in R

Een corpus opschonen

library(tm)
library(tidytext)
data("acq")
tidy_data <- tidy(acq)
tidy_data
# A tibble: 50 x 16
   author datetimestamp       description heading id    language origin
   <chr>  <dttm>              <chr>       <chr>   <chr> <chr>  <list>
 1 <NA>   1987-02-26 10:18:06 ""          COMPUT… 10    en       <chr …
...
Introductie tot Natural Language Processing in R

Een corpus maken

Maak het corpus

corpus <- VCorpus(VectorSource(tidy_data$text))

Voeg de metagegevens toe

meta(corpus, 'Author') <- tidy_data$author
meta(corpus, 'oldid') <- tidy_data$oldid
head(meta(corpus))
  Author oldid
1 <NA>  5553
2 <NA>  5555
Introductie tot Natural Language Processing in R

Laten we dit in actie zien.

Introductie tot Natural Language Processing in R

Preparing Video For Download...