Navigare nell'HTML

Web scraping in R

Timo Grossenbacher

Instructor

L'HTML è come un albero

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>

Albero HTML

Web scraping in R

L'HTML è come un albero

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>

Albero HTML 2

Web scraping in R

L'HTML è come un albero

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>

Albero HTML 3

Web scraping in R

Navigare l'albero con rvest

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>
html <- read_html(html_document)

html_children(html)
{xml_nodeset (1)}
[1] <body>\n    <div>\n  < ...
html %>% html_children()
html %>% html_children() %>% html_text()
[1] "\n    \n      Il primo paragrafo.\n   
\n    \n      Non un vero paragrafo, \n      
ma con un link.\n    \n    Un paragraf ...
Web scraping in R

Raggiungere i nodi con i selettori

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>
html <- read_html(html_document)

html %>% html_element('body')
{xml_nodeset (1)}
[1] <body>\n    <div>\n  < ...
html %>% html_elements('div p')
{xml_nodeset (1)}
[1] <p>Il primo paragrafo.</p>
Web scraping in R

Raggiungere i nodi con i selettori

<html>
  <body>
    <div>
      <p>Il primo paragrafo.</p>
    </div>
    <div>
      Non un vero paragrafo, 
      ma con un <a href="#">link</a>.
    </div>
    <p>Un paragrafo senza 
      div contenitore.</p>
  </body>
</html>
html %>% html_elements('p')
{xml_nodeset (2)}
[1] <p>Il primo paragrafo.</p>
[2] <p>Un paragrafo senza un contene...
html %>% html_elements('div') %>% 
    html_elements('p')
{xml_nodeset (1)}
[1] <p>Il primo paragrafo.</p>
Web scraping in R

Estrarre gli attributi

html %>%
    html_element('a') %>%
    html_attr('href')
[1] #
html %>%
    html_element('a') %>%
    html_attrs()
href 
 "#"
Web scraping in R

Andiamo!

Web scraping in R

Preparing Video For Download...