Voir la version complète : Eviter l'aspiration de site
vilain_mamuth
13/02/2004, 10h04
j'aimerais savoir s'il y a un moyen d'empecher qu'on m'aspire mon site
je ne suis pas contre le principe mais ca penalise le visiteur lambda qui ne peut plus se connecter
impossible par le user agent car il est indiqué comme Mozilla/MSIE....
l'ip , vu qu'elle change c pas une tres bonne idee non plus
je sais pas koi faire
Le principe d'un aspirateur est assez simple ca aspire et ca suit tout les liens qu il trouve.
Alors il te suffit de faire un lien cache sur un gif de 1px transparent par exemple en bas a gauche de ta page.
le lien de ce gif va pointer vers une url.
Bien maintenant tu vas pouvoir bloquer de plusieurs maniere le loustic.
Sois via htaccess que tu auto gènere avec l ip de l imphame aspirateur soit d autre moyen plus ou moins interessant mais bon chiant à mettre en place.
Il suffit ensuite que ton fichier htaccess se vide tous les jours.
Voila c une piste comme ca que j avais lu sur un forum.
Sur google fait php aspirateur comme recherche tu trouveras plein de trucs
bon courage
vilain_mamuth
13/02/2004, 14h29
ca a l'air assez fastidieux
en plus ca doit gener les robots des moteurs de recherche non?
en tout cas merci je v explorer cette piste
TranSGeniK
13/02/2004, 15h38
Avec mod_rewrite tu peux déjà limiter.
Voici une petite liste d'agents considérés comme aspirateurs, extracteurs d'email etc etc...
Il suffit de créer un .htaccess avec les lignes suivantes (ou de les ajouter à un .htaccess déjà existant):
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} "Collage" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Custo" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Download Wonder" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ESIRover" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetURL" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "GetWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "HavIndex" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "httrack" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "InfoSpiders" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Internet Explore" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Jeeves" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "jpeg hunt" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "KDD Explorer" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "LightningDownload" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "PBWF" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Shai'Hulud" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "SpiderBot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "ssearcher100" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Templeton" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "vobsub" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "w3mir" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebBandit" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCatcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webcopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopy" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebFetcher" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebMirror" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebReaper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "webvac" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebWalk" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "wGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "xGet" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "atSpider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "autoemailspider" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "cherrypicker" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DSurf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "DTS Agent" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EliteSys Entry" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailCollector" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailSiphon" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "EmailWolf" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Mail Sweeper" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "munky" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Roverbot" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "eCatch" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "MemoWeb" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "Teleport Pro" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebCopier" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebZIP" [NC,OR]
RewriteCond %{HTTP_USER_AGENT} "WebEmailExtrac" [NC]
RewriteRule .* - [F,L]
Excellent :) le système du lien invisible.
Si vous voulez tester sur mon site http://cherche-mes-puces.com/
Je maintenais déjà une liste des ip de robots, à présent j'y ajoute ce mécanisme et réalise un stockage en base de données qui bloque l'IP et m'avertit dès qu'une aspiration est détectée. C'est efficace!
Merci pour le tuyau.
Olivier
multinetworks
14/02/2004, 18h45
@ bah ouai grave, c'est efficace, ca bloque même les robots de google, alatavista, lycos, bref c du bon.
JK'éspère quand meme que t'as penssé a ignorer une certaine classe d'ip.
Les robots Google et altavista... viennent avec une IP bien particulière que je stocke quelque part; donc, ils ne sont pas bloqués.
Il existe des listes sur certains sites discutant du référencement.
Bonsoir,
La grande différence entre les Robots et les Aspirateurs
est que les 1ers lisent le fichier "/robots.txt"
alors que quasiement tous les Aspirateurs l'ignorent...
Il suffit donc de mettre dans ton robots.txt :
User-agent: *
Disallow: /mon-chemin/mon-image-piège.php
et les gentils Robots (Google et Cie) ne se feront pas piéger :)
@+
Oukiva
PS: Pour Damien de multinetworks.net:
- Puisque tu ne réponds à aucun mail et que tu as aussi interdit l'envoi de mail par ce forum, je te signale que Multinetworks restera black-listé par le serveur de Paroles.Net tant que tu n'auras pas contacté son webmaster@ ...
multinetworks
14/02/2004, 19h55
Pour oukiva, tu te trompe, j'ai répondu à tes 2 emails... Mais bon si tu blacklist mon serveur, c normal que tu ne les recoivent pas...
Contact moi via le forum...
vBulletin® v.3.8.4, Copyright ©2000-2012, Jelsoft Enterprises Ltd. Tous droits réservés - Version française vbulletin-fr.org