PHP Maniac

Das PHP Blog für PHP-Profis und alle die es werden wollen

Kategorie: Regular Expressions

HTML Seiten Crawlen (Links extrahieren)

30 April, 2009 (08:52) | Crawler, Grundlagen, PHP, Regular Expressions, Server | Von: PHP Maniac

Vor einigen Tagen habe ich ja einen Artikel zum HTTP GET verfasst. Die Resonanz, besonders vor dem Hintergrund der Crawler-Programmierung, hat mich doch positiv überrascht und daher werde ich nun noch einige Artikel zu dem Thema Crawler schreiben. Mit dem HTTP GET Request wissen wir bereits, wie wir Webseiten von einem Server mit PHP abrufen können. Zum fertigen mini Crawler fehlt eigentlich nur noch eine Analyse der gewonnen HTML Seiten um weitere Links zu finden und dadurch mehr Seiten Crawlen zu können. Da jedoch jede Webseite anders aussieht, ist dieses Unterfangen nicht ganz leicht zu lösen. Das es aber definitiv nicht aussichtslos ist, zeigt ein näherer Blick auf die Regular Expressions.

Weiterlesen »