OVH Community, votre nouvel espace communautaire.

Eviter l'aspiration de site


multinetworks
14/02/2004, 20h55
Pour oukiva, tu te trompe, j'ai répondu à tes 2 emails... Mais bon si tu blacklist mon serveur, c normal que tu ne les recoivent pas...

Contact moi via le forum...

Oukiva
14/02/2004, 20h48
Bonsoir,

La grande différence entre les Robots et les Aspirateurs
est que les 1ers lisent le fichier "/robots.txt"
alors que quasiement tous les Aspirateurs l'ignorent...

Il suffit donc de mettre dans ton robots.txt :
Code:
User-agent: *
Disallow: /mon-chemin/mon-image-piège.php
et les gentils Robots (Google et Cie) ne se feront pas piéger

@+
Oukiva


PS: Pour Damien de multinetworks.net:
- Puisque tu ne réponds à aucun mail et que tu as aussi interdit l'envoi de mail par ce forum, je te signale que Multinetworks restera black-listé par le serveur de Paroles.Net tant que tu n'auras pas contacté son webmaster@ ...

olive
14/02/2004, 20h11
Les robots Google et altavista... viennent avec une IP bien particulière que je stocke quelque part; donc, ils ne sont pas bloqués.
Il existe des listes sur certains sites discutant du référencement.

multinetworks
14/02/2004, 19h45
@ bah ouai grave, c'est efficace, ca bloque même les robots de google, alatavista, lycos, bref c du bon.

JK'éspère quand meme que t'as penssé a ignorer une certaine classe d'ip.

olive
14/02/2004, 18h10
Excellent le système du lien invisible.
Si vous voulez tester sur mon site http://cherche-mes-puces.com/
Je maintenais déjà une liste des ip de robots, à présent j'y ajoute ce mécanisme et réalise un stockage en base de données qui bloque l'IP et m'avertit dès qu'une aspiration est détectée. C'est efficace!

Merci pour le tuyau.
Olivier

TranSGeniK
13/02/2004, 16h38
Avec mod_rewrite tu peux déjà limiter.

Voici une petite liste d'agents considérés comme aspirateurs, extracteurs d'email etc etc...

Il suffit de créer un .htaccess avec les lignes suivantes (ou de les ajouter à un .htaccess déjà existant):

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} "Collage" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Custo" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Download Wonder" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ESIRover" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetURL" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "HavIndex" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "httrack" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "InfoSpiders" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Internet Explore" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Jeeves" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "jpeg hunt" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "KDD Explorer" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "LightningDownload" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "PBWF" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Shai'Hulud" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "SpiderBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ssearcher100" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Templeton" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "vobsub" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "w3mir" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebBandit" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCatcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webcopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopy" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebFetcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebMirror" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebReaper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webvac" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebWalk" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "wGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "xGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "atSpider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "autoemailspider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "cherrypicker" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DSurf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DTS Agent" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EliteSys Entry" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailCollector" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailSiphon" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailWolf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Mail Sweeper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "munky" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Roverbot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "eCatch" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "MemoWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Teleport Pro" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebZIP" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebEmailExtrac" [NC]
RewriteRule .* - [F,L]

vilain_mamuth
13/02/2004, 15h29
ca a l'air assez fastidieux

en plus ca doit gener les robots des moteurs de recherche non?

en tout cas merci je v explorer cette piste

fliper
13/02/2004, 13h45
Le principe d'un aspirateur est assez simple ca aspire et ca suit tout les liens qu il trouve.

Alors il te suffit de faire un lien cache sur un gif de 1px transparent par exemple en bas a gauche de ta page.

le lien de ce gif va pointer vers une url.
Bien maintenant tu vas pouvoir bloquer de plusieurs maniere le loustic.
Sois via htaccess que tu auto gènere avec l ip de l imphame aspirateur soit d autre moyen plus ou moins interessant mais bon chiant à mettre en place.

Il suffit ensuite que ton fichier htaccess se vide tous les jours.

Voila c une piste comme ca que j avais lu sur un forum.
Sur google fait php aspirateur comme recherche tu trouveras plein de trucs

bon courage

vilain_mamuth
13/02/2004, 11h04
j'aimerais savoir s'il y a un moyen d'empecher qu'on m'aspire mon site

je ne suis pas contre le principe mais ca penalise le visiteur lambda qui ne peut plus se connecter

impossible par le user agent car il est indiqué comme Mozilla/MSIE....

l'ip , vu qu'elle change c pas une tres bonne idee non plus

je sais pas koi faire