![]() |
|
|
Themen-Optionen |
|
|
Nach oben #1 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
Hallo Leute,
ich möchte rein interesseshalber meinen eigenen Suchmaschine mit Crawler in PHP entwickeln. Habe mir ein paar Tutorials angeschaut, u.a. Fremde Webseiten auslesen und Rekursion. Bin derzeit noch an den Grundlagen des Crawlers dran und versuche soweit es geht, alles an "meinem" Code zu verstehen. Bisher hab ich das hier: PHP-Code:
(Gekürzt und geändert) <a href="index.php?a=link">Linkname<br /> <a href="index.php?a=link">Linkname<br /> <a href="index.php?a=link">Linkname<br /> So, wie bekomm ich das nun hin, dass ich vor dem index.php?a=link meinen gecrawlten url einfüge und diese Links erneut crawle. Danke im vorraus |
|
|
|
|
|
Nach oben #2 |
|
Erfahrener Benutzer
Registriert seit: 14.08.2005
Ort: Nienburg / Weser
Beiträge: 662
|
Am Einfachsten ist wahrscheinlich mittels Regular Expression die Links auszulesen:
PHP-Code:
__________________
Paradox ist, wenn jemand für seinen Alkoholkonsum geradestehen soll |
|
|
|
|
|
Nach oben #3 | |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
Zitat:
|
|
|
|
|
|
|
Nach oben #4 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
Danke, musste den Code erweitern
PHP-Code:
|
|
|
|
|
|
Nach oben #5 |
|
Entwickler
Registriert seit: 05.02.2007
Ort: München
Beiträge: 115
|
Hallo Eyüp,
wenn das allgemeingültig funktionieren soll, dann solltest du alle Vorkommen von Code:
href="..."
__________________
Grüße, Dr.E. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Have a look at http://www.adventure-php-framework.org! ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ |
|
|
|
|
|
Nach oben #6 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
dr.e danke für den tipp.
wollen wir weiter machen, wo wir stehen geblieben sind. jetzt bekomme ich alle vollständigen links. nächstes problem: ich möchte bestimmte inhalte extrahieren, dass geht sicherlich mit regex. muss u.a. sowas parsen: <td align="center" valign="middle"><div><strong>text mit punkt und etc.</strong></div></td> ich muss ciherlich wie folgt vorgehen PHP-Code:
|
|
|
|
|
|
Nach oben #7 | |
|
Entwickler
Registriert seit: 05.02.2007
Ort: München
Beiträge: 115
|
Zitat:
__________________
Grüße, Dr.E. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Have a look at http://www.adventure-php-framework.org! ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ |
|
|
|
|
|
|
Nach oben #8 | |
|
Erfahrener Benutzer
Registriert seit: 17.11.2005
Ort: Rheinland-Pfalz, Osthofen
Beiträge: 122
|
An sich ist hier ja nur die Schwierigkeit ein RegExp in kombination mit einem Auswertungsscript zu erstellen.
Die Frage ist jetzt allerdings, was möchtest du genau erreichen? Möglich währe auch alle HTML-Elemente und irelevanten Inhalt herauszulöschen. Dann bleibt nur der Inhalt (der Text) der Seite übrig. Denke aber der nächste Schritt wird wohl sein den Inhalt interpretieren zu können. Da währe es sinnfoll den Inhalt in ein Array oder, wie erwähnt, in Objektbaum zu bringen. Oder soll es eine einfache Suchfunktion nach vorkommenden Wörtern werden? Damit man dir weiter helfen kann, solltest du über diesen Punkt hinaus sein (wenn du den Inhalt parsen möchtest) : Zitat:
|
|
|
|
|
|
|
Nach oben #9 | ||
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
Zitat:
|
||
|
|
|
|
|
Nach oben #10 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
So, habs probiert
PHP-Code:
|
|
|
|
|
|
Nach oben #11 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
So hab mal bissl weiter gearbeitet.
Der Code ist kürzer geworden, jetzt fehlen mir einige Funktionen, was aber nicht funktioniert. Der Code sieht jetzt so aus PHP-Code:
Und ich möchte diesen Teil mit rein implementieren PHP-Code:
|
|
|
|
|
|
Nach oben #12 |
|
BIN EIN KRASSA HELD!!!111
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.184
|
Nur mal so ne Frage, deute ich das richtig dass du da einfach massiv viele Links von einer anderen Seite auslesen willst und als eigene Downloads mit direkten Links zu DEREN Files anbieten willst ?
Darfst du das ? Wenn ja, stellt sich die Frage warum dir dafür keine passende API gestellt wird. Bei mir kommt der Verdacht auf, dass das ganze nicht so ganz erlaubt ist. Kannst mich aber gerne vom Gegenteil überzeugen Geändert von robo47 (17.11.2007 um 13:07 Uhr). |
|
|
|
|
|
Nach oben #13 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
Es ist ein projektidee, mit der ich erfahrung sammeln möchte. wenn es aus einer seite wäre, würd ich ne api verlangen, ja, is aber net so.
hoffe, das reicht an erklärung |
|
|
|
|
|
Nach oben #14 |
|
Erfahrener Benutzer
Registriert seit: 04.03.2007
Ort: Viernheim
Beiträge: 131
|
So leute, ich bin ziemlich weit gekommen, kann durch verschiedenen strukturierte paginations crawlen.
Als ergebnis bekomme ich jetzt rund 6.000 Links, die zum letzten mal gecrawlt werden, das krieg ich hin, bloss mein script crawlt jetzt nur ne jeden 6. Link. Hängt das am max_exec time? |
|
|
|