Christoph Werner
Bachelor Thesis, Hochschule Wismar, April 2021
Autor: Christoph Werner
Titel: Vergleich aktueller Web-Crawling-Werkzeuge
Abstrakt:
Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, um gezielt und automatisiert Daten aus dem Internet zu sammeln. Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer Dokumentation bewertet und gegenübergestellt. Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich von verschiedenen Crawling Frameworks entwickelt.