Evitar que descarguen tu web con Wget

Evitar que descarguen tu web con Wget, Curl y otras librerías bot (incluyendo agentes).

Si existe algo que moleste a cualquier propietario de un sitio web, es que le descarguen el sitio por completo (exceptuando casos concretos, donde los usuarios tienen auténticos problemas para navegar de manera eficiente y económica, por ejemplo los amigos de Cuba).

Es raro que un agente te produzca algún daño a tu sitio, realmente lo que puede generar es un exceso de consumo de recursos incluyendo una posible repercusión negativa en la usabilidad del sitio web.

Los cara dura que solo intentan clonar tu web, son una especie sin nombre.

Aunque no siempre es posible, podemos intentar bloquearlos.

Vemos como hacerlo…

 

Que no descarguen tu web con Wget y otras librerías

Aunque muchos agentes bot se saltan el archivo robots.txt por el forro de los coj…, es lo donde primero debemos bloquear (luego te explico como lo hacen).

En el ejemplo.. y para que no descarguen, nuestro sitio web  con Wget agregaremos lo siguiente en el archivo robots.txt.

Si lo que queremos es no permitir la descarga de una carpeta especifica, sería de la siguiente manera:

Ahora bien, cualquier usuario un poco conocedor de los comandos sabe que saltarse esa orden es muy sencillo, mira que fácil:

No explicamos nada más, pues se ve a simple vista.

Intentamos bloquear que descarguen tu web con wget de una forma más efectiva.

 

Más seguro y efectivo es haciendo uso de nuestro .htaccess (enlace recomendable).

Agregamos lo siguiente:

Podemos agregar más agentes.

Y por ultimo…. bloquear los más conocidos en masa.

Pd: Ten cuidado con esta ultima opción, existen sitios donde su instalación o panel de control web requiere alguno de los agentes bloqueados, por ejemplo curl, java, python.

Si es tu caso lo borras del listado y solucionado.

 

Si te fue útil este articulo, compártelo en redes sociales.

 

Evitar que descarguen tu web con Wget
5 (100%) 5 Voto[s]

Agregar comentario