martes, agosto 14, 2007

Como bajarse una página web entera (con enlaces)

Primero y antes de que sigas leyendo esto es para Linux. Si usas Window$ cambiate y usa este minicomo
Para hacer esto solo necesitamos el potente y muchas veces infravalorado wget.
La linea mágica será:

wget -t5 -r -l2 -k -p http://www.direccionweb.com

  • -t5 indica que se probará 5 veces cada descarga.
  • -r indica que se descargarán recursivamente los enlaces.
  • -l2 indica el nivel en la recursividad de descarga de los enlaces. Esto es, se descargaran las páginas que esten enlazadas por las páginas enlazadas por la página que quiero descargar. Normalmente en 2 niveles es mas que suficiente ( y ya lleva su tiempo) pero si quieres mas amplitud y tines paciencia puedes usar numeros mayores (ten en cuenta que las descargas aumentan de manera exponencial)
  • -k convertirá los enlaces para que sea posible navegar en local.
  • -p se descargarán tambien los elementos externos a la página, pero que son útiles para su visualizacion, como fotos, hojas de estilo...
Si ya quieres ser muy perfeccionista y usas kde, sabras que konqueror hace algo parecido y lo guarda en archivos con extension war (que no es nada mas ni nada menos que un tar).
Para empaquetar todo lo que has bajado en un bonito war puedes:
  • Renombrar la página que queremos q sea nuestra principal como "index.html" (espero que sepas hacer esto)
  • Meterlo todo en un tar con extension .tar; pra ello:
cd directorioCreadoPorWGET;
tar -cvf nombreArchivo.war *;
mv nombreArchivo.war ../;
cd ..;

Ahora en el directorio en el que estais habrá una carpeta que es la que creo el wget y un archivo empaquetado .war que el konqueror podrá leer.