Evitar que descarguen tu web con Wget

Evitar que descarguen tu web con Wget, Curl y otras librerías bot (incluyendo agentes).

Si existe algo que moleste a cualquier propietario de un sitio web, es que le descarguen el sitio por completo (exceptuando casos concretos, donde los usuarios tienen auténticos problemas para navegar de manera eficiente y económica, por ejemplo los amigos de Cuba).

Es raro que un agente te produzca algún daño a tu sitio, realmente lo que puede generar es un exceso de consumo de recursos incluyendo una posible repercusión negativa en la usabilidad del sitio web.

Los cara dura que solo intentan clonar tu web, son una especie sin nombre.

Aunque no siempre es posible, podemos intentar bloquearlos.

Vemos como hacerlo…

Evitar que descarguen tu web con Wget 1

 

Que no descarguen tu web con Wget y otras librerías

Aunque muchos agentes bot se saltan el archivo robots.txt por el forro de los coj…, es lo donde primero debemos bloquear (luego te explico como lo hacen).

En el ejemplo.. y para que no descarguen, nuestro sitio web  con Wget agregaremos lo siguiente en el archivo robots.txt.

User-agent: wget
Disallow: /

Si lo que queremos es no permitir la descarga de una carpeta especifica, sería de la siguiente manera:
User-agent: wget
Disallow: /carpeta_privada/ ###Nombre de tu carpeta

Ahora bien, cualquier usuario un poco conocedor de los comandos sabe que saltarse esa orden es muy sencillo, mira que fácil:
wget -e robots=off --wait 1 http://sitio-web.com

No explicamos nada más, pues se ve a simple vista.

Intentamos bloquear que descarguen tu web con wget de una forma más efectiva.

Evitar que descarguen tu web con Wget 2

 

Más seguro y efectivo es haciendo uso de nuestro .htaccess (enlace recomendable).

Agregamos lo siguiente:

RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^wget [OR]
RewriteRule ^.* - [F,L]

Podemos agregar más agentes.
RewriteEngine on
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^añadir_bot [OR]
...
RewriteRule ^.* - [F,L]

Y por ultimo…. bloquear los más conocidos en masa.
RewriteEngine On
Options +FollowSymLinks
RewriteCond %{HTTP_USER_AGENT} ^(java|curl|wget).* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*(winhttp|HTTrack|clshttp|archiver|loader|email|harvest|extract|grab|miner).* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*(libwww|curl|wget|python|nikto|scan).* [NC,OR]
RewriteRule ^(.*)$ - [F]

Pd: Ten cuidado con esta ultima opción, existen sitios donde su instalación o panel de control web requiere alguno de los agentes bloqueados, por ejemplo curl, java, python.

Si es tu caso lo borras del listado y solucionado.

 

Si te fue útil este articulo, compártelo en redes sociales.

 

Agregar comentario