Christoph Werner: Unterschied zwischen den Versionen

Aktuelle Version vom 30. April 2021, 16:06 Uhr

Bachelor Thesis, Hochschule Wismar, April 2021

Autor: Christoph Werner

Titel: Vergleich aktueller Web-Crawling-Werkzeuge

Abstrakt:

Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien, um gezielt und automatisiert Daten aus dem Internet zu sammeln. Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen. Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer Dokumentation bewertet und gegenübergestellt. Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich von verschiedenen Crawling Frameworks entwickelt.

Download PDF-Dokument

Anonym

Suche

Christoph Werner: Unterschied zwischen den Versionen

Namensräume

Mehr

Seitenaktionen

Aktuelle Version vom 30. April 2021, 16:06 Uhr

Navigation

Navigation

Fernstudiengänge

Wikiwerkzeuge

Wikiwerkzeuge

@@ Zeile 9: / Zeile 9: @@
 Webcrawling im Verbund mit Webscraping ist eine der grundlegenden Technologien,
 um gezielt und automatisiert Daten aus dem Internet zu sammeln.
-Zun¨achst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings
+Zunächst wird in dieser Thesis auf die Grundlagen des Crawlings und Scrapings
 eingegangen. Hierbei soll besonderes Augenmerk auf der Architektur und Funktionsweise
 eines Crawlers, dem Robots Exclusion Protocol (REP), zu bedenkende
 Sicherheitsaspekte, sowie Anti-Crawling/Scraping-Maßnahmen liegen.
 Darauf aufbauend werden verschiedenste Crawling Frameworks auf Grundlage ihrer
-Dokumentation bewertet und gegen¨ubergestellt.
+Dokumentation bewertet und gegenübergestellt.
-Abschließend wird ein Tool mit einer grafischen Benutzeroberfl¨ache (GUI) zum Vergleich
+Abschließend wird ein Tool mit einer grafischen Benutzeroberfläche (GUI) zum Vergleich
 von verschiedenen Crawling Frameworks entwickelt.
 [[Media:BT_CWerner.pdf|Download PDF-Dokument]]

Anonym

Suche

Christoph Werner: Unterschied zwischen den Versionen

Aktuelle Version vom 30. April 2021, 16:06 Uhr

Navigation

Wikiwerkzeuge

Seitenwerkzeuge