Skip to content
Fabian Steeg edited this page Jun 22, 2011 · 1 revision

Softwaretechnologie: Java (Teil II, Sommersemester), Aufgabe 10

  1. Studieren Sie den Beispiel-Quellcode und die Literatur (insb. Manning et al.) zum Thema Web-Crawling. Überlegen Sie, welche Beschränkungen die Beispiel-Umsetzung hat und was für eine vollständige Implementierung fehlt. Berücksichtigen Sie dabei die unterschiedlichen Arten von Links in Websites (schauen Sie sich HTML-Quelltexte an), die in der Literatur beschriebenen Höflichkeitsregeln, die Problematik doppelter Websites (z.B. mehrfach verlinkt von unterschiedlichen Orten), und die unterschiedlichen Arten von Inhalten (Absätze, Listen, etc.). Notieren Sie Ihre Überlegungen zu konkreten Problemen und möglichen Lösungsansätzen.
  2. Erweitern Sie den Crawler um eine einfache Zeitmessung und führen Sie in Form von Unit-Tests Laufzeitvergleiche mit sequenzieller und paralleler Verarbeitung durch.