Evitar que descarguen tu web con Wget, Curl y otras librerías bot (incluyendo agentes).
Si existe algo que moleste a cualquier propietario de un sitio web, es que le descarguen el sitio por completo (exceptuando casos concretos, donde los usuarios tienen auténticos problemas para navegar de manera eficiente y económica, por ejemplo los amigos de Cuba).
Es raro que un agente te produzca algún daño a tu sitio, realmente lo que puede generar es un exceso de consumo de recursos incluyendo una posible repercusión negativa en la usabilidad del sitio web.
Los cara dura que solo intentan clonar tu web, son una especie sin nombre.
Aunque no siempre es posible, podemos intentar bloquearlos.
Vemos como hacerlo…
Que no descarguen tu web con Wget y otras librerías
Aunque muchos agentes bot se saltan el archivo robots.txt por el forro de los coj…, es lo donde primero debemos bloquear (luego te explico como lo hacen).
En el ejemplo.. y para que no descarguen, nuestro sitio web con Wget agregaremos lo siguiente en el archivo robots.txt.
User-agent: wget Disallow: /
Si lo que queremos es no permitir la descarga de una carpeta especifica, sería de la siguiente manera:
User-agent: wget Disallow: /carpeta_privada/ ###Nombre de tu carpeta
Ahora bien, cualquier usuario un poco conocedor de los comandos sabe que saltarse esa orden es muy sencillo, mira que fácil:
wget -e robots=off --wait 1 http://sitio-web.com
No explicamos nada más, pues se ve a simple vista.
Intentamos bloquear que descarguen tu web con wget de una forma más efectiva.
Más seguro y efectivo es haciendo uso de nuestro .htaccess (enlace recomendable).
Agregamos lo siguiente:
RewriteEngine on RewriteBase / RewriteCond %{HTTP_USER_AGENT} ^wget [OR] RewriteRule ^.* - [F,L]
Podemos agregar más agentes.
RewriteEngine on RewriteBase / RewriteCond %{HTTP_USER_AGENT} ^wget [OR] RewriteCond %{HTTP_USER_AGENT} ^añadir_bot [OR] ... RewriteRule ^.* - [F,L]
Y por ultimo…. bloquear los más conocidos en masa.
RewriteEngine On Options +FollowSymLinks RewriteCond %{HTTP_USER_AGENT} ^(java|curl|wget).* [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^.*(winhttp|HTTrack|clshttp|archiver|loader|email|harvest|extract|grab|miner).* [NC,OR] RewriteCond %{HTTP_USER_AGENT} ^.*(libwww|curl|wget|python|nikto|scan).* [NC,OR] RewriteRule ^(.*)$ - [F]
Pd: Ten cuidado con esta ultima opción, existen sitios donde su instalación o panel de control web requiere alguno de los agentes bloqueados, por ejemplo curl, java, python.
Si es tu caso lo borras del listado y solucionado.
Si te fue útil este articulo, compártelo en redes sociales.