Sådan skrabes websteder med Python

Nogle gange vil du måske udtrække data fra et websted til et andet format. Men hvad hvis webstedet ikke har nogen nem måde at eksportere disse data på? Det er her, webskrabning kommer ind.

Vi har udgivet et crashkursus på YouTube-kanalen freeCodeCamp.org, der vil lære dig at udføre webskrabning ved hjælp af Python-biblioteket Beautiful Soup.

Dette kursus blev udviklet af Jim Ergin fra JimShapedCoding. Jim har brugt og undervist i Python i mange år.

Smuk suppe giver dig mulighed for at samle de oplysninger, du ønsker, fra ethvert websted, du ønsker. Det kan være et bankwebsted, sociale medier, Wikipedia eller ethvert andet websted.

Beautiful Soup giver metoder til at navigere, søge og ændre et parse-træ. Det gør det lettere at dissekere et HTML-dokument og udtrække de data, du har brug for. Og det tager ikke meget kode at skrive en applikation.

I dette kursus lærer du først, hvordan man skraber en grundlæggende HTML-side bare for at lære begreberne. Derefter går du videre til at skrabe et rigtigt websted. I slutningen lærer du, hvordan du gemmer de oplysninger, du skraber fra hjemmesiden.

Her er emnerne, der er dækket af dette kursus:

  • Grundlæggende HTML-struktur, HTML-tags Forklaring
  • Pakker installation
  • Skrabning af lokale filer
  • Smukke suppe find & find_all () metoder
  • Webbrowserinspektionsværktøj
  • Gribe priser i et grundlæggende webskrabeprojekt
  • Brug af anmodningsbiblioteket til at se et websteds HTML  
  • Skrabning af et produktionswebsted
  • Loop gennem lignende suppe.find_all () objekter
  • Filtrering af skrabede job
  • Opsætning af et projekt, der skal skrabes hvert 10. minut
  • Lagring af jobafsnittet i tekstfiler

Se hele crashkurset på YouTube-kanalen freeCodeCamp.org (1-timers ur).