Capire un corpus in R

Introduzione all'Elaborazione del Linguaggio Naturale in R

Kasey Jones

Data Scientist

Corpora

  • Raccolte di documenti con testo in linguaggio naturale
  • Dal pacchetto tm come corpus
  • VCorpus — rappresentazione più comune
1 https://www.rdocumentation.org/packages/tm/versions/0.7-8/topics/Corpus
Introduzione all'Elaborazione del Linguaggio Naturale in R

Contenuto di un VCorpus: metadati

library(tm)
data("acq")
acq[[1]]$meta
  author       : character(0)
  datetimestamp: 1987-02-26 15:18:06
  heading      : COMPUTER TERMINAL SYSTEMS <CPML> COMPLETES SALE
  id           : 10
  language     : en
  origin       : Reuters-21578 XML
  ...          : ...
1 http://www.daviddlewis.com/resources/testcollections/reuters21578/
Introduzione all'Elaborazione del Linguaggio Naturale in R

Contenuto di un VCorpus: metadati

library(tm)
data("acq")
acq[[1]]$meta$places
[1] "usa"
Introduzione all'Elaborazione del Linguaggio Naturale in R

Contenuto di un VCorpus: contenuti

acq[[1]]$content
[1] "Computer Terminal Systems Inc said it has completed ...
acq[[2]]$content
[1] "Ohio Mattress Co said its first quarter, ending ...
Introduzione all'Elaborazione del Linguaggio Naturale in R

Ripulire un corpus

library(tm)
library(tidytext)
data("acq")
tidy_data <- tidy(acq)
tidy_data
# A tibble: 50 x 16
   author datetimestamp       description heading id    language origin
   <chr>  <dttm>              <chr>       <chr>   <chr> <chr>  <list>
 1 <NA>   1987-02-26 10:18:06 ""          COMPUT… 10    en       <chr …
...
Introduzione all'Elaborazione del Linguaggio Naturale in R

Creare un corpus

Crea il corpus

corpus <- VCorpus(VectorSource(tidy_data$text))

Aggiungi i metadati

meta(corpus, 'Author') <- tidy_data$author
meta(corpus, 'oldid') <- tidy_data$oldid
head(meta(corpus))
  Author oldid
1 <NA>  5553
2 <NA>  5555
Introduzione all'Elaborazione del Linguaggio Naturale in R

Vediamolo in pratica.

Introduzione all'Elaborazione del Linguaggio Naturale in R

Preparing Video For Download...