Mova seu parsing, pô!

Raspagem da Web em Python

Thomas Laetsch

Data Scientist, NYU

De novo

class DCspider( scrapy.Spider ):
    name = "dcspider"

    def start_requests( self ):
        urls = [ 'https://www.datacamp.com/courses/all' ]
        for url in urls:
            yield scrapy.Request( url = url, callback = self.parse )

    def parse( self, response ):
        # simple example: write out the html
        html_file = 'DC_courses.html'
        with open( html_file, 'wb' ) as fout:
            fout.write( response.body )
Raspagem da Web em Python

Você já sabe!

def parse( self, response ):

# input parsing code with response that you already know!
# output to a file, or...
# crawl the web!
Raspagem da Web em Python

Links de cursos da DataCamp: salvar em arquivo

class DCspider( scrapy.Spider ):
    name = "dcspider"

    def start_requests( self ):
        urls = [ 'https://www.datacamp.com/courses/all' ]
        for url in urls:
            yield scrapy.Request( url = url, callback = self.parse )

def parse( self, response ):
links = response.css('div.course-block > a::attr(href)').extract()
filepath = 'DC_links.csv' with open( filepath, 'w' ) as f: f.writelines( [link + '/n' for link in links] )
Raspagem da Web em Python

Links de cursos da DataCamp: parse de novo

class DCspider( scrapy.Spider ):
    name = "dcspider"

    def start_requests( self ):
        urls = [ 'https://www.datacamp.com/courses/all' ]
        for url in urls:
            yield scrapy.Request( url = url, callback = self.parse )

def parse( self, response ):
links = response.css('div.course-block > a::attr(href)').extract()
for link in links: yield response.follow( url = link, callback = self.parse2 )
def parse2( self, response ): # parse the course sites here!
Raspagem da Web em Python

Uma aranha seguindo links pelo site da DataCamp.

Raspagem da Web em Python

Johnny Parsin'

Raspagem da Web em Python

Preparing Video For Download...