PHP Maniac

Das PHP Blog für PHP-Profis und alle die es werden wollen

Tag: Crawler

Laufzeit eines PHP Skripts messen

2 Mai, 2009 (17:38) | Code-Schnipsel, Grundlagen, PHP 5 | Von: PHP Maniac

Heute mal ein Klassiker, den vielleicht schon viele kennen. Allerdings ist die Laufzeitmessung von PHP Skripten eine interessante Sache, auch wenn sie sehr leicht zu implementieren ist. Gerade bei stark frequentierten Seiten oder aufwändigen Berechnungen (Stichwort Parsing oder Crawlen) hilft die Laufzeitmessung mögliche Fehler zu erkennen oder das Skript hinsichtlich der Geschwindigkeit zu verbessern. Wenn so ein Skript dann mehrere hundert Seiten Crawlt, können auch kleine Verbesserungen zu enormen Geschwindigkeitsverbesserungen führen.

Weiterlesen »

HTML Seiten Crawlen (Links extrahieren)

30 April, 2009 (08:52) | Crawler, Grundlagen, PHP, Regular Expressions, Server | Von: PHP Maniac

Vor einigen Tagen habe ich ja einen Artikel zum HTTP GET verfasst. Die Resonanz, besonders vor dem Hintergrund der Crawler-Programmierung, hat mich doch positiv überrascht und daher werde ich nun noch einige Artikel zu dem Thema Crawler schreiben. Mit dem HTTP GET Request wissen wir bereits, wie wir Webseiten von einem Server mit PHP abrufen können. Zum fertigen mini Crawler fehlt eigentlich nur noch eine Analyse der gewonnen HTML Seiten um weitere Links zu finden und dadurch mehr Seiten Crawlen zu können. Da jedoch jede Webseite anders aussieht, ist dieses Unterfangen nicht ganz leicht zu lösen. Das es aber definitiv nicht aussichtslos ist, zeigt ein näherer Blick auf die Regular Expressions.

Weiterlesen »

HTTP GET Requests mit PHP erzeugen

27 April, 2009 (18:22) | Code-Schnipsel, PHP, Server | Von: PHP Maniac

Wer sich mit PHP gerne mal einen kleinen Crawler oder Proxy programmieren möchte, ist sicher schon über die Erzeugung von HTTP Requests gestolpert. Zwar bietet PHP mit der Funktion file_get_contents() bei entsprechend konfiguriertem Webspace eine einfache Möglichkeit Webseiten auf anderen Servern abzurufen, allerdings lässt diese keine Einstellungen wie z.B. den User-Agent zu. Wer also mehr erwartet als das bloße Abrufen von Webseiten, oder wenn die Webseite den PHP User-Agent blockt, muss selbst Hand anlegen. Wie das geht, werde ich im folgenden kurz Beschreiben.

Weiterlesen »