PHP Maniac

Das PHP Blog für PHP-Profis und alle die es werden wollen

Tag: http get

HTML Seiten Crawlen (Links extrahieren)

30 April, 2009 (08:52) | Crawler, Grundlagen, PHP, Regular Expressions, Server | Von: PHP Maniac

Vor einigen Tagen habe ich ja einen Artikel zum HTTP GET verfasst. Die Resonanz, besonders vor dem Hintergrund der Crawler-Programmierung, hat mich doch positiv überrascht und daher werde ich nun noch einige Artikel zu dem Thema Crawler schreiben. Mit dem HTTP GET Request wissen wir bereits, wie wir Webseiten von einem Server mit PHP abrufen können. Zum fertigen mini Crawler fehlt eigentlich nur noch eine Analyse der gewonnen HTML Seiten um weitere Links zu finden und dadurch mehr Seiten Crawlen zu können. Da jedoch jede Webseite anders aussieht, ist dieses Unterfangen nicht ganz leicht zu lösen. Das es aber definitiv nicht aussichtslos ist, zeigt ein näherer Blick auf die Regular Expressions.

Weiterlesen »

HTTP GET Requests mit PHP erzeugen

27 April, 2009 (18:22) | Code-Schnipsel, PHP, Server | Von: PHP Maniac

Wer sich mit PHP gerne mal einen kleinen Crawler oder Proxy programmieren möchte, ist sicher schon über die Erzeugung von HTTP Requests gestolpert. Zwar bietet PHP mit der Funktion file_get_contents() bei entsprechend konfiguriertem Webspace eine einfache Möglichkeit Webseiten auf anderen Servern abzurufen, allerdings lässt diese keine Einstellungen wie z.B. den User-Agent zu. Wer also mehr erwartet als das bloße Abrufen von Webseiten, oder wenn die Webseite den PHP User-Agent blockt, muss selbst Hand anlegen. Wie das geht, werde ich im folgenden kurz Beschreiben.

Weiterlesen »