Additional Content
Main Content
Ein Crawler für das Web 2.0
Allgemeine Informationen
| Veranstalter: | Martin Potthast, Michael Gorski |
| Vorbesprechung: | Der Termin wird an die Teilnehmer gemailt |
| Projektart: | Bachelor / Master |
| Umfang: | 15 ECTS |
Kurzbeschreibung
Dieses Projekt widmet sich dem Web-Crawling. Ziel ist es, das verteilte Crawlen zu erforschen und einen Prototyp zu entwickeln, der in der Lage ist, auch JavaScript-basierte Webseiten zu erfassen. Web-Crawling stellt immernoch eine große Herausforderung dar, da das Web rasant wächst (es verdoppelt sich alle paar Monate), und da kaum eine Webseite wirklich standardkonform ist. Im Projekt werden daher moderne Browser-Engines (Firefox, Chrome) eingesetzt sowie Hadoop MapReduce auf einem Cluster von mehr als 40 Computern.
Content signature
© Fakultät Medien 05.09.2011 / Kontakt / Impressum / Datenschutz / Bemerkung zu dieser Seite
Die Bauhaus-Universität Weimar verwendet Piwik zur Web-Analyse.


