Christoph Werner

Bachelor Thesis, Hochschule Wismar, April 2021

Autor: Christoph Werner

Titel: Vergleich aktueller Web-Crawling-Werkzeuge

Abstrakt:

Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, um gezielt und automatisiert Daten aus dem Internet zu sammeln. Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer Dokumentation bewertet und gegenübergestellt. Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich von verschiedenen Crawling Frameworks entwickelt.

Download PDF-Dokument