Christoph Werner: Unterschied zwischen den Versionen
Etduen (Diskussion | Beiträge) (Die Seite wurde neu angelegt: „Bachelor Thesis, Hochschule Wismar, April 2021 Autor: Christoph Werner Titel: '''Vergleich aktueller Web-Crawling-Werkzeuge''' Abstrakt: Webcrawling im Ve…“) |
Etduen (Diskussion | Beiträge) Keine Bearbeitungszusammenfassung |
||
Zeile 9: | Zeile 9: | ||
Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, | Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, | ||
um gezielt und automatisiert Daten aus dem Internet zu sammeln. | um gezielt und automatisiert Daten aus dem Internet zu sammeln. | ||
Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings | |||
eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise | eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise | ||
eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende | eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende | ||
Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. | Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. | ||
Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer | Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer | ||
Dokumentation bewertet und | Dokumentation bewertet und gegenübergestellt. | ||
Abschließend wird ein Tool mit einer grafischen | Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich | ||
von verschiedenen Crawling Frameworks entwickelt. | von verschiedenen Crawling Frameworks entwickelt. | ||
[[Media:BT_CWerner.pdf|Download PDF-Dokument]] | [[Media:BT_CWerner.pdf|Download PDF-Dokument]] |
Aktuelle Version vom 30. April 2021, 15:06 Uhr
Bachelor Thesis, Hochschule Wismar, April 2021
Autor: Christoph Werner
Titel: Vergleich aktueller Web-Crawling-Werkzeuge
Abstrakt:
Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, um gezielt und automatisiert Daten aus dem Internet zu sammeln. Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer Dokumentation bewertet und gegenübergestellt. Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich von verschiedenen Crawling Frameworks entwickelt.