-
Notifications
You must be signed in to change notification settings - Fork 53
Sommer Aufgabe 10
Fabian Steeg edited this page Jun 22, 2011
·
1 revision
- Studieren Sie den Beispiel-Quellcode und die Literatur (insb. Manning et al.) zum Thema Web-Crawling. Überlegen Sie, welche Beschränkungen die Beispiel-Umsetzung hat und was für eine vollständige Implementierung fehlt. Berücksichtigen Sie dabei die unterschiedlichen Arten von Links in Websites (schauen Sie sich HTML-Quelltexte an), die in der Literatur beschriebenen Höflichkeitsregeln, die Problematik doppelter Websites (z.B. mehrfach verlinkt von unterschiedlichen Orten), und die unterschiedlichen Arten von Inhalten (Absätze, Listen, etc.). Notieren Sie Ihre Überlegungen zu konkreten Problemen und möglichen Lösungsansätzen.
- Erweitern Sie den Crawler um eine einfache Zeitmessung und führen Sie in Form von Unit-Tests Laufzeitvergleiche mit sequenzieller und paralleler Verarbeitung durch.