![]() |
| | Themen-Optionen | Thema durchsuchen |
| | Nach oben #1 |
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
|
Ich bin gerade am herumbasteln an einer robots.txt, denn damit kann man ja durchaus schöne Dinge machen! Meine Frage an euch ist, was berücksichtigt ihr so? Sperrt ihr gewisse bots explizit? Wie kontrolliert ihr, wer sich dran hält? Ich würde gerne hier von eurem Profi-Wissen profitieren! Denn davon profitieren auch andere - und letztlich auch dieses Projekt! Als Ziel stelle ich mir vor, dass wir hier eine Diskussionsgrundlage haben, aufgrund derer jeder mit individuellen Anpassungsmöglichkeiten eine robots.txt erstellen kann, die optimal ist! Für alle, die nicht wissen sollten, worum es geht:
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! |
| | |
| | Nach oben #2 |
| Benjamin Klaile Registriert seit: 02.12.2004 Ort: Remagen
Beiträge: 4.480
|
Ich knall hier einfach mal einen Link rein: http://www.bjoernsworld.de/suchmasch...obots-txt.html Dabei seien auch die Folgelinks am unteren Rand der Seite beachtet. Habe noch nicht alles durchgearbeitet. Lese aber fleißig [Nachtrag] Ich habe einfach mal bei größeren Webseiten abgeguckt Sitepoint.com: Code: User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /forums/report.php Disallow: /forums/search.php Disallow: /forums/newreply.php Disallow: /forums/editpost.php Disallow: /forums/memberlist.php Disallow: /forums/profile.php Disallow: /launch/ Disallow: /search/ Disallow: /voucher/424/ Disallow: /email/ Disallow: /feedback/ Disallow: /contact?reason=articlesuggest Disallow: /linktothis/ Disallow: /popup/ Disallow: /forums/archive/ Code: User-agent: MS Search 4.0 Robot Disallow: / User-agent: * Disallow: /bin/ Disallow: /fastbin/ Disallow: /icons/ Disallow: /RealMedia/ Disallow: /ct/flohmarkt/ Disallow: /ct/forum/ Disallow: /ix/forum/ Disallow: /newsticker/forum/ Disallow: /forum/ Disallow: /foren/write Disallow: /ct/foren/ Disallow: /ct/cd-register/foren/ Disallow: /ct/tipps/foren/ Disallow: /newsticker/foren/ Disallow: /english/foren/ Disallow: /english/newsticker/foren/ Disallow: /mobil/foren/ Disallow: /mobil/newsticker/foren/ Disallow: /open/foren/ Disallow: /open/news/foren/ Disallow: /security/foren/ Disallow: /security/news/foren/ Disallow: /software/foren/ Disallow: /support/foren/ Disallow: /tp/foren/ Disallow: /tr/foren/ Disallow: /tr/themen/foren/ Disallow: /registration/edit Disallow: /registration/delete Disallow: /ix/blog/foren/ Disallow: /ix/news/foren/ Disallow: /extras/foren/ Disallow: /netze/news/foren/ Disallow: /netze/artikel/foren/ Disallow: /resale/foren/ Disallow: /resale/news/foren/ Code: # Robots Exclusions for www.tagesschau.de # based on a robots.txt by S.Mueller User-agent: * Disallow: / Allow: /aktuell/meldungen/ Allow: /index/ # Google abbremsen mit non-standards # http://www.google.com/webmasters/3.html#B3 User-agent: Googlebot Disallow: /*.zip$ Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: / Allow: /aktuell/meldungen/ Allow: /index/ # Yahoo News Crawler User-Agent: Yahoo-Newscrawler Disallow: / Allow: /xml/tagesschau-meldungen/ Allow: /xml/suchmaschinen_rss/ Allow: /aktuell/meldungen/ Allow: /index/ # Yahoo Multimedia Crawler User-Agent: yahoo-mmcrawler Disallow: # POLIXEA - Suchdienst fuer Politik User-agent: Polixea Disallow: # Bilder klauen ist nicht die feine Art User-Agent: Googlebot-Image Disallow: / # AltaVista's Photo Finder User-Agent: vscooter Disallow: / # Related Links? Wozu denn das? # Alexa User-Agent: ia_archiver Disallow: / # Auch Sauger wollen wir sperren User-agent: Teleport* Disallow: / User-agent: Webwhacker* Disallow: / User-agent: Webzip* Disallow: / User-agent: Net Attache* Disallow: / User-agent: SiteSnagger* Disallow: / User-agent: HTTrack* Disallow: / User-agent: WebCapture* Disallow: / User-agent: WebSauger* Disallow: / Geändert von Ben (11.01.2007 um 10:43 Uhr). |
| | |
| | Nach oben #4 |
| Benjamin Steininger Registriert seit: 02.06.2005 Ort: weiher im tiefsten Odenwald
Beiträge: 1.183
|
Also ich habe bei mir nicht wirklich viel drin, ein verzeichnis das nicht gecrawlt werden soll und den komischen Gonzobot von T-Com hab ich gesperrt, weil der mich genervt hat, sobald man von dem mal was hört und eine suchmaske gibt, werde ich den wohl mal wieder freigeben. Code: User-agent: * Disallow: /public/ User-agent: gonzo1 User-agent: gonzo2 User-agent: gonzo1P User-agent: gonzo2P Disallow: / |
| | |
| | Nach oben #5 |
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
|
wäre es nicht möglich eine Falle zu stellen? Nach dem Motto 'in das Verzeichnis xy darfst du nicht rein' - wer es dann doch tut, der wird anschl. gesperrt?
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! |
| | |
| | Nach oben #6 | |
| Benjamin Steininger Registriert seit: 02.06.2005 Ort: weiher im tiefsten Odenwald
Beiträge: 1.183
| Zitat:
http://www.bot-trap.de/ | |
| | |
| | Nach oben #7 |
| Benjamin Klaile Registriert seit: 02.12.2004 Ort: Remagen
Beiträge: 4.480
|
Frage ist nur, ob an dieser Stelle Automatisierung nötig und sinnvoll ist oder ab man nicht eine regelmäßige manuelle Prüfung durchführt und je nach Auswertungsergebnis der Zugriffe (wie auch immer man das machen kann |
| | |
| | Nach oben #8 |
| Benjamin Steininger Registriert seit: 02.06.2005 Ort: weiher im tiefsten Odenwald
Beiträge: 1.183
| so mache ich das, wenn ich erkenne, dass viele oder zu viele zugriffe von einer IP / non-standard-browser-signatur oder ähnliches kommen, wird gegoogelt, geschaut woher ist die IP, gibts bei abakus oder ähnlichem vieleicht infos über die IP oder den bereich und dann kommt in die httpd.conf vom apache ein DENY FROM, das ist wirksam, in zukunft werde ich dann noch das dokument was dan nausgegeben wird etwas anpassen, dass man sich bei mir melden kann wenn man fälschlicherweise ausgesperrt wurde.
|
| | |
| | Nach oben #10 |
| Benjamin Steininger Registriert seit: 02.06.2005 Ort: weiher im tiefsten Odenwald
Beiträge: 1.183
|
Kleiner Nachtrag zum erfolgreichen bannen, wenn einem IPs zu lässtig werden und man serverseitig (Apache vorrausgesetzt) User bannen will, ich habe folgendes gefunden: http://www.auburn.edu/docs/apache/mo...ml#denyfromenv damit kann man sehr einfach ohne für jede Domain ne htaccess zu haben, useragents verbannen, die bekommen dann nen HTTP/1.1 403 Forbidden header und die Fehlerseite ausgegeben, jetzt muss ich mal schauen ob man das noch ein bißchen modifizieren kann, dann mach ich mal sowas lustiges wie jeden Freitag den IE bannen oder so |
| | |
| | Nach oben #11 |
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
|
Die Diskussion, welche hier begonnen hat - zum Thema bottrap - habe ich in ein eigenständiges Thema überführt: http://www.developers-guide.net/foru...ine-diskussion // edit: Dieses Thema befindet sich nun in einem Unter-Forum, welches nur noch von den Mitgliedern des Community-Projektes aufgerufen werden kann. Wer Interesse an der Mitarbeit an möge sich diesen thread durchlesen: http://www.developers-guide.net/foru...unterstuetzung
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! Geändert von Jann Hendrik (22.04.2008 um 09:22 Uhr). |
| | |
| | Nach oben #13 | |
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
|
Ich bitte um Entschuldigung, dass ich vergessen habe das zu erwähnen.... Du hast dich rund 30 Minuten nach der Info-Mail angemeldet, daher hier noch einmal der Text, der an die gesamte Community ging: Zitat:
http://www.developers-guide.net/foru...unterstuetzung
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! | |
| | |
| | Nach oben #14 |
| Neuer Benutzer Registriert seit: 22.04.2008 Ort: Augsburg
Beiträge: 4
|
Ich hab' mich sogar wegen der Email bzw. weil ich davon erfahren habe angemeldet Ok, das erklärt dann auch indirekt die Zugriffsverweigerung - vermutlich muss man Mitglied der Gruppe sein um die Diskussion weiter verfolgen zu können? Ich habe Mr. NiceGuy ohnehin schon eine PN geschickt, dann warten wir einfach mal was weiterhin passiert. P.S.: @Jann Hendrik: log' dich mal aus und suche den "Registrieren"-Link. Entweder ich bin Blind oder ihr Spielt "such den Link" mit Euren zukünftigen Mitgliedern. Konnte mich nur über einen Loginversuch und den dann unterm Loginformular befindlichen Link registrieren - überall sonst hab' ich ihn vergeblich gesucht. |
| | |
| | Nach oben #15 | |
| Erfahrener Benutzer Registriert seit: 31.12.2006 Ort: Zürich
Beiträge: 298
| Auf der Starseite des Forums: Zitat:
__________________ . <-- This is Punkt. Copy Punkt into your signature to help him on his way to world domination. | |
| | |
| | Nach oben #16 |
| Neuer Benutzer Registriert seit: 22.04.2008 Ort: Augsburg
Beiträge: 4
|
@Bleistift: Stimmt, da bin ich aber (warum auch immer) nicht drauf gekommen zu suchen. Auf der "echten Startseite" (dem Portal), im Header auf den anderen Seiten oder an einer anderen "greifbaren" Stelle hätte ich ihn erwartet. Sollte aber keinesfalls negativ gemeint sein, sondern eher als Hinweis - muss ja jeder so halten wie er es für richtig hält
__________________ Viele Grüße, Helmi |
| | |
| | Nach oben #17 | |||
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
| Zitat:
An dieser Stelle möchte dann mal auf Wie bist du auf den developers-guide aufmerksam geworden? aufmerksam machen. Zitat:
Er - oder die Arbeitsgruppe - wird das entscheiden und mir dann (dir wohl auch) die Entscheidung mitteilen. Wenn ich von ihm das ok bekomme, dann schalte ich dich für die Gruppe frei. Zitat:
Naja - mal im ernst - ja, das ist bekannt. Am Portal wird gearbeitet, so dass das in einer der nächsten Versionen auch behoben werden sollte. Interessanterweise nimmt die Anzahl der Neuanmeldungen trotzdem nicht wirklich ab. Aber du hast schon recht, das sollte geändert werden. Bist auch nicht der Erste, der das bemängelt.
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! | |||
| | |
| | Nach oben #18 |
| Jann Hendrik Bekaan Registriert seit: 02.12.2004 Ort: Wildeshausen
Beiträge: 2.214
|
Um diese Thema nochmal aufzuwärmen: Speziell für vbSEO-Nutzer. Es wartet also nochmal Arbeit auf mich...
__________________ Umfragen: Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Danke! |
| | |
![]() |
| Lesezeichen |
| Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1) | |
| Themen-Optionen | Thema durchsuchen |
| |
Ähnliche Themen | ||||
| Thema | Autor | Forum | Antworten | Letzter Beitrag |
| robots.txt - Fehlermeldung im FF | Jann Hendrik | HTML, XML und CSS | 7 | 26.05.2006 18:46 |