-
Webseiten mit Playwright un Python scrapen
- Listing 1: Installation von Playwright
- Dynamische Webseiten analysieren
- Listing 2: Auslesen der Daten auf nasdaq.com
- Den Browser fernsteuern
- Webseiten aufzeichnen
- Fazit
Das Zusammentragen von Informationen aus Webseiten ist dann simpel, wenn das Ziel eine statische Seite ist – hier reicht ein einfaches Python-Skript, das die Webseite über das Requests-Modul lädt und den HTML-Code mit der Bibliothek Beautiful Soup parst. Will man hingegen dynamische Seiten scrapen, die ihren Inhalt mit JavaScript über XMLHttpRequest aktualisieren, benötigt man Browserfernsteuerungswerkzeuge wie Selenium, Puppeteer oder Playwright.
Selenium ist etabliert, aber in die Jahre gekommen und schwerfällig. Puppeteer ist auf JavaScript spezialisiert. Playwright, das jüngste dieser Tools, bietet eine kompakte Python-Syntax und fängt viele potenzielle Fehlerquellen beim Analysieren dynamischer Webseiten ab.
- Will man Webseitendaten sammeln, stoßen klassische Crawler bei dynamischen JavaScript-Elementen an ihre Grenzen.
- Abhilfe schaffen Bibliotheken zum Fernsteuern eines Browsers, die bekannteste ist Selenium. Playwright ist eine modernere Alternative.
- Die Bibliothek nutzt einen Chromium- oder Firefox-Browser, um Webseiten so darzustellen, wie sie im Browser aussehen.
- Playwright erleichtert Programmierern die Arbeit, indem es automatisch zu noch nicht sichtbaren Elementen scrollt und wartet, bis Elemente auf Interaktion reagieren.
So scrollt Playwright selbstständig zu noch nicht sichtbaren Elementen und wartet auf Elemente, die noch nicht bereit zur Interaktion sind. Programmierer müssen daher nicht wie bei Selenium selbst sleep-Aufrufe einbauen.
Das war die Leseprobe unseres heise-Plus-Artikels "Webseiten mit Playwright un Python scrapen". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.