Impressum · Kontakt · Hilfe
Besucher online · Mitglieder



Antwort
 
Themen-Optionen
Alt 11.01.2007, 09:43   Nach oben    #1
Jann Hendrik
Projektleiter
 
Benutzerbild von Jann Hendrik
 
Registriert seit: 02.12.2004
Ort: Wildeshausen
Beiträge: 2.141
Standard robots.txt - was habt ihr so drin

Ich bin gerade am herumbasteln an einer robots.txt, denn damit kann man ja durchaus schöne Dinge machen!

Meine Frage an euch ist, was berücksichtigt ihr so? Sperrt ihr gewisse bots explizit? Wie kontrolliert ihr, wer sich dran hält?

Ich würde gerne hier von eurem Profi-Wissen profitieren! Denn davon profitieren auch andere - und letztlich auch dieses Projekt!


Als Ziel stelle ich mir vor, dass wir hier eine Diskussionsgrundlage haben, aufgrund derer jeder mit individuellen Anpassungsmöglichkeiten eine robots.txt erstellen kann, die optimal ist!

Für alle, die nicht wissen sollten, worum es geht:
http://de.wikipedia.org/wiki/robots.txt
__________________

Umfragen:
bitte beachten: Vorschläge für künftige Umfragen
Woher weißt du vom developers-guide?

Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Schreibe ein Tutorial und beschreibe, wie es geht, was nicht klappt, wo man aufpassen muss usw.
Danke!
Jann Hendrik ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 11.01.2007, 09:49   Nach oben    #2
Ben
Erfahrener Benutzer
 
Benutzerbild von Ben
 
Registriert seit: 02.12.2004
Ort: Remagen
Beiträge: 4.583
Standard

Ich knall hier einfach mal einen Link rein: http://www.bjoernsworld.de/suchmasch...obots-txt.html

Dabei seien auch die Folgelinks am unteren Rand der Seite beachtet.
Habe noch nicht alles durchgearbeitet. Lese aber fleißig


[Nachtrag]
Ich habe einfach mal bei größeren Webseiten abgeguckt .

Sitepoint.com:
Code:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /forums/report.php
Disallow: /forums/search.php
Disallow: /forums/newreply.php
Disallow: /forums/editpost.php
Disallow: /forums/memberlist.php
Disallow: /forums/profile.php
Disallow: /launch/
Disallow: /search/
Disallow: /voucher/424/
Disallow: /email/
Disallow: /feedback/
Disallow: /contact?reason=articlesuggest
Disallow: /linktothis/
Disallow: /popup/
Disallow: /forums/archive/
Heise.de
Code:
User-agent: MS Search 4.0 Robot
Disallow: /

User-agent: *
Disallow: /bin/
Disallow: /fastbin/
Disallow: /icons/
Disallow: /RealMedia/
Disallow: /ct/flohmarkt/
Disallow: /ct/forum/
Disallow: /ix/forum/
Disallow: /newsticker/forum/
Disallow: /forum/
Disallow: /foren/write
Disallow: /ct/foren/
Disallow: /ct/cd-register/foren/
Disallow: /ct/tipps/foren/
Disallow: /newsticker/foren/
Disallow: /english/foren/
Disallow: /english/newsticker/foren/
Disallow: /mobil/foren/
Disallow: /mobil/newsticker/foren/
Disallow: /open/foren/
Disallow: /open/news/foren/
Disallow: /security/foren/
Disallow: /security/news/foren/
Disallow: /software/foren/
Disallow: /support/foren/
Disallow: /tp/foren/
Disallow: /tr/foren/
Disallow: /tr/themen/foren/
Disallow: /registration/edit
Disallow: /registration/delete
Disallow: /ix/blog/foren/
Disallow: /ix/news/foren/
Disallow: /extras/foren/
Disallow: /netze/news/foren/
Disallow: /netze/artikel/foren/
Disallow: /resale/foren/
Disallow: /resale/news/foren/
Tagesschau
Code:
# Robots Exclusions for www.tagesschau.de
# based on a robots.txt by S.Mueller

User-agent: *
Disallow: /
Allow: /aktuell/meldungen/
Allow: /index/

# Google abbremsen mit non-standards
# http://www.google.com/webmasters/3.html#B3

User-agent: Googlebot
Disallow: /*.zip$
Disallow: /*.gif$
Disallow: /*.jpg$
Disallow: /
Allow: /aktuell/meldungen/
Allow: /index/

# Yahoo News Crawler
User-Agent: Yahoo-Newscrawler
Disallow: /
Allow: /xml/tagesschau-meldungen/
Allow: /xml/suchmaschinen_rss/
Allow: /aktuell/meldungen/
Allow: /index/

# Yahoo Multimedia Crawler
User-Agent: yahoo-mmcrawler
Disallow:

# POLIXEA - Suchdienst fuer Politik
User-agent: Polixea
Disallow:

# Bilder klauen ist nicht die feine Art
User-Agent: Googlebot-Image
Disallow: /

# AltaVista's Photo Finder
User-Agent: vscooter   
Disallow: /

# Related Links? Wozu denn das?

# Alexa
User-Agent: ia_archiver
Disallow: /

# Auch Sauger wollen wir sperren

User-agent: Teleport* 
Disallow: / 
User-agent: Webwhacker* 
Disallow: / 
User-agent: Webzip* 
Disallow: / 
User-agent: Net Attache* 
Disallow: / 
User-agent: SiteSnagger* 
Disallow: / 
User-agent: HTTrack* 
Disallow: / 
User-agent: WebCapture* 
Disallow: / 
User-agent: WebSauger* 
Disallow: /

Geändert von Ben (11.01.2007 um 10:43 Uhr).
Ben ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 11.01.2007, 13:22   Nach oben    #3
Basti
Erfahrener Benutzer
 
Registriert seit: 04.01.2006
Ort: Kassel
Beiträge: 756
Standard

Nanu?
Code:
User-agent: MS Search 4.0 Robot
Disallow: /
Ist das Politik oder was hat das für Gründe?

Basti
Basti ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 13:15   Nach oben    #4
robo47
BIN EIN KRASSA HELD!!!111
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.170
Standard

Also ich habe bei mir nicht wirklich viel drin, ein verzeichnis das nicht gecrawlt werden soll und den komischen Gonzobot von T-Com hab ich gesperrt, weil der mich genervt hat, sobald man von dem mal was hört und eine suchmaske gibt, werde ich den wohl mal wieder freigeben.

Code:
User-agent: *
Disallow: /public/

User-agent: gonzo1
User-agent: gonzo2
User-agent: gonzo1P
User-agent: gonzo2P
Disallow: /
robo47 ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 14:43   Nach oben    #5
Jann Hendrik
Projektleiter
 
Benutzerbild von Jann Hendrik
 
Registriert seit: 02.12.2004
Ort: Wildeshausen
Beiträge: 2.141
Standard

wäre es nicht möglich eine Falle zu stellen?

Nach dem Motto 'in das Verzeichnis xy darfst du nicht rein' - wer es dann doch tut, der wird anschl. gesperrt?
__________________

Umfragen:
bitte beachten: Vorschläge für künftige Umfragen
Woher weißt du vom developers-guide?

Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Schreibe ein Tutorial und beschreibe, wie es geht, was nicht klappt, wo man aufpassen muss usw.
Danke!
Jann Hendrik ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 15:17   Nach oben    #6
robo47
BIN EIN KRASSA HELD!!!111
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.170
Standard

Zitat:
Zitat von Jann Hendrik Beitrag anzeigen
wäre es nicht möglich eine Falle zu stellen?

Nach dem Motto 'in das Verzeichnis xy darfst du nicht rein' - wer es dann doch tut, der wird anschl. gesperrt?
nennt sich bottrap, gibt es fertige gepflege Lösungen für muss man sich halt anemlden udn alles, das wird wohl regelmäßig aktualisiert:

http://www.bot-trap.de/
robo47 ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 15:32   Nach oben    #7
Ben
Erfahrener Benutzer
 
Benutzerbild von Ben
 
Registriert seit: 02.12.2004
Ort: Remagen
Beiträge: 4.583
Standard

Frage ist nur, ob an dieser Stelle Automatisierung nötig und sinnvoll ist oder ab man nicht eine regelmäßige manuelle Prüfung durchführt und je nach Auswertungsergebnis der Zugriffe (wie auch immer man das machen kann ) dann die Datei händisch erweitert.
Ben ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 17:52   Nach oben    #8
robo47
BIN EIN KRASSA HELD!!!111
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.170
Standard

Zitat:
Zitat von Ben Beitrag anzeigen
Frage ist nur, ob an dieser Stelle Automatisierung nötig und sinnvoll ist oder ab man nicht eine regelmäßige manuelle Prüfung durchführt und je nach Auswertungsergebnis der Zugriffe (wie auch immer man das machen kann ) dann die Datei händisch erweitert.
so mache ich das, wenn ich erkenne, dass viele oder zu viele zugriffe von einer IP / non-standard-browser-signatur oder ähnliches kommen, wird gegoogelt, geschaut woher ist die IP, gibts bei abakus oder ähnlichem vieleicht infos über die IP oder den bereich und dann kommt in die httpd.conf vom apache ein DENY FROM, das ist wirksam, in zukunft werde ich dann noch das dokument was dan nausgegeben wird etwas anpassen, dass man sich bei mir melden kann wenn man fälschlicherweise ausgesperrt wurde.
robo47 ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 12.01.2007, 17:54   Nach oben    #9
Ben
Erfahrener Benutzer
 
Benutzerbild von Ben
 
Registriert seit: 02.12.2004
Ort: Remagen
Beiträge: 4.583
Standard

Ja, das finde ich gut. Der Aufwand ist im Vergleich zum Ertrag sicherlich angemessen.
Ben ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 31.01.2007, 22:17   Nach oben    #10
robo47
BIN EIN KRASSA HELD!!!111
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.170
Standard

Kleiner Nachtrag zum erfolgreichen bannen, wenn einem IPs zu lässtig werden und man serverseitig (Apache vorrausgesetzt) User bannen will, ich habe folgendes gefunden:

http://www.auburn.edu/docs/apache/mo...ml#denyfromenv

damit kann man sehr einfach ohne für jede Domain ne htaccess zu haben, useragents verbannen, die bekommen dann nen HTTP/1.1 403 Forbidden
header und die Fehlerseite ausgegeben, jetzt muss ich mal schauen ob man das noch ein bißchen modifizieren kann, dann mach ich mal sowas lustiges wie jeden Freitag den IE bannen oder so
robo47 ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 15.04.2008, 22:49   Nach oben    #11
Jann Hendrik
Projektleiter
 
Benutzerbild von Jann Hendrik
 
Registriert seit: 02.12.2004
Ort: Wildeshausen
Beiträge: 2.141
Standard

Die Diskussion, welche hier begonnen hat - zum Thema bottrap - habe ich in ein eigenständiges Thema überführt:
http://www.developers-guide.net/foru...ine-diskussion


// edit:
Dieses Thema befindet sich nun in einem Unter-Forum, welches nur noch von den Mitgliedern des Community-Projektes aufgerufen werden kann.
Wer Interesse an der Mitarbeit an möge sich diesen thread durchlesen:
Community-Projekt zur Bot-Abwehr benötigt Unterstützung
__________________

Umfragen:
bitte beachten: Vorschläge für künftige Umfragen
Woher weißt du vom developers-guide?

Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Schreibe ein Tutorial und beschreibe, wie es geht, was nicht klappt, wo man aufpassen muss usw.
Danke!

Geändert von Jann Hendrik (22.04.2008 um 09:22 Uhr).
Jann Hendrik ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 08:59   Nach oben    #12
Helmi
Neuer Benutzer
 
Registriert seit: 22.04.2008
Ort: Augsburg
Beiträge: 4
Standard

Evtl. liegts dran, dass ich neu hier bin (hallo btw. *g*), aber ich kann auf das verlinkte Thema nicht zugreifen - ist das Absicht?
Helmi ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 09:20   Nach oben    #13
Jann Hendrik
Projektleiter
 
Benutzerbild von Jann Hendrik
 
Registriert seit: 02.12.2004
Ort: Wildeshausen
Beiträge: 2.141
Standard

Ich bitte um Entschuldigung, dass ich vergessen habe das zu erwähnen....

Du hast dich rund 30 Minuten nach der Info-Mail angemeldet, daher hier noch einmal der Text, der an die gesamte Community ging:
Zitat:
Hallo,

vielleicht hast du schon die Ankündigung (Community-Projekt zur Bot-Abwehr benötigt Unterstützung) gelesen.

Aus einer Diskussion heraus hat sich die Idee entwickelt, hier im Forum mit einer Entwicklergruppe ein Projekt ähnlich Bot-Trap (http://www.bot-trap.de/home/) zu realisieren. Dabei geht es um ein Skript, welches anhand diverser Merkmale "böse" Bots beim Zugriff auf die Seite erkennt und blockiert.

Für dieses Projekt suchen wir nun noch begeisterte Mitarbeiter. Wir benötigen Leute, die eine gewisse Ahnung von PHP und OOP haben, da das Projekt für PHP5 entwickelt wird.

Eine Bezahlung o.ä. erfolgt nicht, das Projekt läuft auf freiwilliger Basis und wird unter eine offene Lizenz gestellt (welche dies sein wird ist noch nicht entschieden).

Wenn du Lust, Interesse, Durchhaltevermögen, PHP-Wissen und Zeit mit bringst melde dich einfach beim momentanen Projektleiter MrNiceGuy (http://www.developers-guide.net/foru...r/69,mrniceguy).

Um das ganze für uns übersichtlicher zu halten und die Interessenten auch vernünftig beurteilen zu können, solltest du eine gewisse Zeit (~ 3 Monate) hier im Developer's Guide aktiv sein und in den Fachforen gezeigt haben, dass du etwas kannst. Wir werden die Posts aus den Fachforen in unsere Beurteilung mit einfließen lassen, um uns ein besseres Bild machen zu können.
Solltest du noch nicht so lange aktiv im Developer's Guide mitwirken, könntest du auch andere Referenzen (Ein Forum, in dem du sehr aktiv bist / warst; deine eigene Seite mit PHP-relevanten Tutorials, Tipps o.ä.; etc.) angeben, die wir für die Entscheidung heranziehen können.

Mit freundlichen Grüßen,
Jann Hendrik Bekaan
Projektleiter des developers-guide.net
zur besonderen Beachtung:
Community-Projekt zur Bot-Abwehr benötigt Unterstützung
__________________

Umfragen:
bitte beachten: Vorschläge für künftige Umfragen
Woher weißt du vom developers-guide?

Wenn du dich in ein interessantes Thema eingearbeitet hast, dann lass andere daran teilhaben! Schreibe ein Tutorial und beschreibe, wie es geht, was nicht klappt, wo man aufpassen muss usw.
Danke!
Jann Hendrik ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 09:30   Nach oben    #14
Helmi
Neuer Benutzer
 
Registriert seit: 22.04.2008
Ort: Augsburg
Beiträge: 4
Standard

Ich hab' mich sogar wegen der Email bzw. weil ich davon erfahren habe angemeldet

Ok, das erklärt dann auch indirekt die Zugriffsverweigerung - vermutlich muss man Mitglied der Gruppe sein um die Diskussion weiter verfolgen zu können? Ich habe Mr. NiceGuy ohnehin schon eine PN geschickt, dann warten wir einfach mal was weiterhin passiert.

P.S.: @Jann Hendrik: log' dich mal aus und suche den "Registrieren"-Link. Entweder ich bin Blind oder ihr Spielt "such den Link" mit Euren zukünftigen Mitgliedern. Konnte mich nur über einen Loginversuch und den dann unterm Loginformular befindlichen Link registrieren - überall sonst hab' ich ihn vergeblich gesucht.
Helmi ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 10:12   Nach oben    #15
Bleistift
Erfahrener Benutzer
 
Benutzerbild von Bleistift
 
Registriert seit: 31.12.2006
Ort: Zürich
Beiträge: 289
Standard

Zitat:
Zitat von Helmi Beitrag anzeigen
überall sonst hab' ich ihn vergeblich gesucht.
Auf der Starseite des Forums:
Zitat:
Die Registrierung ist selbstverständlich kostenfrei und jederzeit wieder kündbar.
__________________
. <-- This is Punkt. Copy Punkt into your signature to help him on his way to world domination.
Bleistift ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 10:35   Nach oben    #16
Helmi
Neuer Benutzer
 
Registriert seit: 22.04.2008
Ort: Augsburg
Beiträge: 4
Standard

@Bleistift: Stimmt, da bin ich aber (warum auch immer) nicht drauf gekommen zu suchen. Auf der "echten Startseite" (dem Portal), im Header auf den anderen Seiten oder an einer anderen "greifbaren" Stelle hätte ich ihn erwartet.

Sollte aber keinesfalls negativ gemeint sein, sondern eher als Hinweis - muss ja jeder so halten wie er es für richtig hält
__________________
Viele Grüße,
Helmi
Helmi ist offline  
Add Post to del.icio.usBookmark Post in TechnoratiDiesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 22.04.2008, 12:17   Nach oben    #17
Jann Hendrik
Projektleiter
 
Benutzerbild von Jann Hendrik
 
Registriert seit: 02.12.2004
Ort: Wildeshausen
Beiträge: 2.141
Standard

Zitat:
Zitat von Helmi Beitrag anzeigen
Ich hab' mich sogar wegen der Email bzw. weil ich davon erfahren habe angemeldet
Wow - da war die Mund-Propaganda aber schnell!

An dieser Stelle möchte dann mal auf Wie bist du auf den developers-guide aufmerksam geworden? aufmerksam machen.

Zitat:
Zitat von Helmi Beitrag anzeigen
Ich habe Mr. NiceGuy ohnehin schon eine PN geschickt, dann warten wir einfach mal was weiterhin passiert.
Er antwortet idR recht schnell.
Er - oder die Arbeitsgruppe - wird das entscheiden und mir dann (dir wohl auch) die Entscheidung mitteilen. Wenn ich von ihm das ok bekomme, dann schalte ich dich für die Gruppe frei.

Zitat:
Zitat von Helmi Beitrag anzeigen
P.S.: @Jann Hendrik: log' dich mal aus und suche den "Registrieren"-Link. Entweder ich bin Blind oder ihr Spielt "such den Link" mit Euren zukünftigen Mitgliedern. Konnte mich nur über einen Loginversuch und den dann unterm Loginformular befindlichen Link registrieren - überall sonst hab' ich ihn vergeblich gesucht.
Wir nehmen hier nur intelligente Leute auf