Web Scraping dengan Python
Thomas Laetsch
Data Scientist, NYU
from scrapy import Selector
html = '''
<html>
<body>
<div class="hello datacamp">
<p>Hello World!</p>
</div>
<p>Enjoy DataCamp!</p>
</body>
</html>
'''
sel = Selector( text = html )
Membuat objek Selector scrapy dari string berisi kode HTML
Selector sel memilih dokumen HTML seluruhnya
Gunakan xpath pada Selector untuk membuat Selector baru pada bagian tertentu dari HTML
Hasilnya SelectorList berisi objek Selector
sel.xpath("//p")# menghasilkan SelectorList: [<Selector xpath='//p' data='<p>Hello World!</p>'>, <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]
extract()>>> sel.xpath("//p")out: [<Selector xpath='//p' data='<p>Hello World!</p>'>, <Selector xpath='//p' data='<p>Enjoy DataCamp!</p>'>]
>>> sel.xpath("//p").extract()out: [ '<p>Hello World!</p>', '<p>Enjoy DataCamp!</p>' ]
extract_first() untuk mengambil elemen pertama>>> sel.xpath("//p").extract_first()out: '<p>Hello World!</p>'
ps = sel.xpath('//p')second_p = ps[1]
second_p.extract()out: '<p>Enjoy DataCamp!</p>'
Web Scraping dengan Python