Pengenalan Selector di scrapy

Web Scraping dengan Python

Thomas Laetsch

Data Scientist, NYU

Menyiapkan Selector

from scrapy import Selector

html = '''
<html>
  <body>
    <div class="hello datacamp">
      <p>Hello World!</p>
    </div>
    <p>Enjoy DataCamp!</p>
  </body>
</html>
'''

sel = Selector( text = html )

Membuat objek Selector scrapy dari string berisi kode HTML
Selector sel memilih dokumen HTML seluruhnya

Memilih Selector

Gunakan xpath pada Selector untuk membuat Selector baru pada bagian tertentu dari HTML
Hasilnya SelectorList berisi objek Selector

sel.xpath("//p")

# menghasilkan SelectorList:
[<Selector xpath='//p' data='<p>Hello World!</p>'>, 
 <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

Mengekstrak Data dari SelectorList

Gunakan metode extract()

>>> sel.xpath("//p")

out: [<Selector xpath='//p' data='<p>Hello World!</p>'>,
      <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]

>>> sel.xpath("//p").extract()

out: [ '<p>Hello World!</p>', 
       '<p>Enjoy DataCamp!</p>' ]

Gunakan extract_first() untuk mengambil elemen pertama

>>> sel.xpath("//p").extract_first()

out: '<p>Hello World!</p>'

Mengekstrak Data dari Selector

ps = sel.xpath('//p')

second_p = ps[1]

second_p.extract()

out: '<p>Enjoy DataCamp!</p>'

Pilih Kursus Ini!

Web Scraping dengan Python