Descargar imágenes de una página web desde el terminal

Todo empezó con ese afán que tiene el ser humano por acaparar cosas, que en algunos casos degenera en el Síndrome de Diógenes, y que en el mundo de los ordenadores se magnifica, y convierte nuestras máquinas en auténticos almacenes de todo, que probablemente nunca tengamos la oportunidad de ver, leer o lo que sea que hagamos. Seguro que has oído a algún amigo o conocido, o a incluso tu mismo, eso de «he descargado 5000 libros», o «tengo música para 60 días sin parar de escuchar». Pero, como dicen en el anuncio de Acuarius, el ser humano es maravilloso.

El tema es que entré en una página que había varios libros en pdf, y que quería descargar, y claro, además de que seamos unos acaparadores, la otra característica que identifica al ser humano es la gandulería. Menuda pereza, ahora tener que ir descargando pdf por pdf, así que realicé una búsqueda de aplicaciones que permitieran descargar archivos de una página web de forma automatizada. Tu le das la dirección y lo que quieres descargar y el se encarga de hacerlo.

No terminaba de encontrar nada que me convenciera. Y es que dado que siempre tengo el terminal en marcha, pensé que lo más cómodo sería un pequeño script o aplicación que hiciera este trabajo. Recuerdo que hay un complemento en Firefox, DownThemAll, que te permite hacer esto, pero resulta que este complemento no está disponible para Chromium, y claro, como soy así de maniático, me parece muy absurdo tener que utilizar dos navegadores dependiendo de para que cosas, pero esto son mis manías, que parece que con la edad se multiplican, o crecen exponencialmente. Así he implementado un sencillo script para cescargar imágenes de una página web

Nota

No digo que no haya ninguna aplicación que haga esto, pero no encontré ninguna. Tampoco es que buscara mucho, creo que me cansé pronto, pero todo lo que veía estaba relacionado con wget, y cosas por el estilo.

Desde luego que si conoces alguna aplicación, con interfaz gráfico que te permita hacer este trabajo, te agradecería que la comentaras, a ver si entre todos encontramos algo realmente potente.

El comienzo. Descargar imágenes de una página web.

Llegados a este punto, y al no encontrar ninguna aplicación me dedicí a escribir un script que permitiera descargar archivos. Claro que como todos los comienzos son difíciles, empecé por lo fácil, que es que solo descargue imágenes. Ya se que lo que quería ira descargar pdf, pero es lo que tiene, una cosa es lo que quieres hacer y otra lo que el tiempo te permite. Cierto es que, en las posibles versiones de este script conseguiré que haga lo que quiero, pero por algún punto hay que empezar.

Todo esto si no encuentras una aplicación que haga todo ésto (que seguro que la hay), pero, bueno, es un comienzo.

El funcionamiento

El procedimiento que utiliza el script, desarrollado en Python, como no, es escanear toda la página en búsqueda de la etiqueta «img», y una vez localizada la procesa y descarga la imagen. No es necesario que la imagen esté alojada en el servidor de la página, sino que puede estar alojada en cualquier otro sitio. Así, podras descargar imágenes de una página web.

En esta primera versión, las descargas se hacen de forma secuencial, ya tengo ideado, que las descargas deben ser en procesos paralelos para acelerar el trabajo. Sin lanzar muchos procesos para no colapsar la página, pero al menos 4 ó 5.

Descargar e instalar

Después de tanto tiempo, he implementado una nueva versión de la aplicación y subido al repositorio. Te recomiendo leas el artículo «Descargar imágenes de una página web en Ubuntu»

Funcionamiento

El funcionamiento es muy sencillo, en el terminal ejecutas el siguiente comando:

imagedownloader www.elmundo.es

Con esto descargarás todas las imágenes de El mundo. Sencillo.

7 comentarios en “Descargar imágenes de una página web desde el terminal

  1. ED
    Eduardo Benítez hace 13 años

    Gran y útil script. Pero
    ¿En qué directorio guarda las imágenes?

    1. EL
      El atareao hace 13 años

      @google-ee555e06e41253f760bc66aed29801ad:disqus , tal y como dice @c4288af28c23cb63672c9788dbc6fb0d:disqus , se guardan en el directorio en el que ejecutes el script

  2. SO
    Soymicmic hace 13 años

    Entiendo que las descarga en el directorio desde el que ejecutes el terminal.

    Muy sencillo y útil.

  3. LI
    linuxman hace 13 años

    Estoy intentando usar tu script ImageDownloader y me marca errores, ¿Necesita alguna versión especial de Python? o algún arreglo en especial? Estoy usando la versión 2.7.1 

  4. LI
    linuxman hace 13 años

    Ya detecté el problema con este script, simplemente no puede con rutas de imágenes relativas y truena.

    1. EL
      El atareao hace 13 años

      Muchas gracias, no había caído en ese detalle, a ver si saco un rato y lo arreglo para evitar este problema.

      Disculpa no te haya contestado, pero voy de cráneo.

      Saludos

      1. LI
        linuxman hace 13 años

        No importa, de hecho ya sali del paso modificando el script para que usara wget. Sigue sin descargar urls relativas pero al menos ya no se detiene por eso.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *