Progetto finale

Web Scraping in Python

Thomas Laetsch

Data Scientist, NYU

Ispezionare gli elementi

import scrapy
from scrapy.crawler import CrawlerProcess

class DC_Chapter_Spider(scrapy.Spider):

    name = "dc_chapter_spider"

    def start_requests( self ):
        url = 'https://www.datacamp.com/courses/all'
        yield scrapy.Request( url = url,
                              callback = self.parse_front )

    def parse_front( self, response ):
        ## Codice per analizzare la pagina iniziale dei corsi

    def parse_pages( self, response ):
        ## Codice per analizzare le pagine dei corsi
        ## Compila dc_dict qui

dc_dict = dict()

process = CrawlerProcess()
process.crawl(DC_Chapter_Spider)
process.start()

Parsing della home page

    def parse_front( self, response ):

        # Restringi ai blocchi dei corsi
        course_blocks = response.css( 'div.course-block' )

        # Vai ai link dei corsi
        course_links = course_blocks.xpath( './a/@href' )

        # Estrai i link (come lista di stringhe)
        links_to_follow = course_links.extract()

        # Segui i link con il parser successivo
        for url in links_to_follow:
            yield response.follow( url = url,
                                   callback = self.parse_pages )

Parsing delle pagine del corso

def parse_pages( self, response ):

    # Vai al testo del titolo del corso
    crs_title = response.xpath('//h1[contains(@class,"title")]/text()')

    # Estrai e pulisci il titolo del corso
    crs_title_ext = crs_title.extract_first().strip()

    # Vai ai titoli dei capitoli
    ch_titles = response.css( 'h4.chapter__title::text' )

    # Estrai e pulisci i titoli dei capitoli
    ch_titles_ext = [t.strip() for t in ch_titles.extract()]

    # Salva nel nostro dizionario
    dc_dict[ crs_title_ext ] = ch_titles_ext

È il momento di Weave

Web Scraping in Python