Actualizado el domingo, 19 noviembre, 2017
Wget es una herramienta de consola que viene instalada en la mayoría de distribuciones Linux. Nos permite (entre otras cosas) descargar un sitio web y todo su árbol de directorios, archivos, imágenes, ficheros CSS a nuestro disco duro, de modo que podremos navegar por él de forma offline.
Procedemos como en este ejemplo:
Creamos una carpeta en el escritorio que se llame MIPAGE y abrimos el terminal dentro de ella.
linux-ktw3:/home/sergio/Escritorio/MIPAGE
Con el siguiente comando, descargamos el sitio completo desde la dirección indicada:
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --domains MIPAGE.es --no-parent
Explicación:
- –recursive indica que de forma recursiva profundice en el árbol de directorios del sitio remoto.
- –no-clobber evita re-descargar archivos que ya se hubieran descargado. Lo usamos por si has intentado una primera vez, se ha descargado parte del sitio, y por alguna razón se ha interrumpido y vuelves a lanzar la descarga.
- –page-requisites, descarga absolutamente todo lo que necesite cada página: imágenes, CSS, etc… .
- –html-extension, convierte todas las extensiones de fichero a .html. En clave, porque puede contener páginas .asp, php, etc… que en local no podríamos explorar gráficamente.
- –convert-links, convierte los enlaces a fichero local, de modo que pueda navegar por todos los hipervínculos de forma local, offline.
- –domains XXX, para que no descargue nada que se salga de este dominio, es decir, algún enlace que apunte a otra página fuera de www.MIPAGE.es.
- –no-parent, para que no suba a los niveles superiores, sino que solo interesa lo que cuelga de la URL bajo la carpeta xml, no hacia arriba (en caso de que solo quisieras descargar por ejemplo www.MIPAGE.es/archivo/).
- y al final, la URL de comienzo de descarga.