Uno de los temas mas recurrentes en mis artículos es el tratamiento de archivos PDF. Es innegable que hoy en día, a nivel de documentación, es uno de los tipos de archivos mas utilizados a pesar de que que existen alternativas, como DjVu, CDF, o incluso lenguajes de descripción de página. Pero dado su uso tan extendido, vamos a ver como podemos trabajar con ellos, pero esta vez directamente desde el terminal utilizando un conjunto de herramientas disponibles en el paquete poppler-utils.
Ya he escrito algunos artículos referentes al uso de algunas utilidades que vienen en el paquete como «Extraer imágenes de un pdf a lo fácil«, «Libros eléctrónicos: de PDF a EPUB en Ubuntu» o «Editar un archivo PDF en Ubuntu«. Sin embargo me ha parecido interesante dar un repaso a todas las posibilidades que nos ofrece este conjunto de herramientas…
Poppler-Utils
Poppler es una biblioteca basada en xpdf-3.0 que permite renderizar archivos PDF. Esta biblioteca así mismo dispone de un conjunto de herramientas, poppler-utils, que te permitirá realizar las operaciones mas diversas con este tipo de documentos desde un emulador de terminal,
- pdffponts, nos muestra las fuentes que están presentes es un archivo PDF
- pdfimages, permite extraer todas las imágenes de un archivo PDF
También permite listar las imágenes que hay en un determinado documento PDF.
- pdfinfo nos muestra información de un documento
- pdfseparate permite separar el documento en varias páginas
- pdftocairo convierte un archivo PDF a diferentes formatos como PNG, JPEG, PS, EPS, SVG.
El resultado es mas que interesante,
- pdftohtml convierte archivos PDF a HTML. Esta utilidad ya la he comentado en otro artículo pudiendo servir de base para convertir a documentos EPUB. Por ejemplo, el archivo con el que estoy haciendo este ejemplo, una vez convertido a HTML presenta el siguiente aspecto,
- pdftoppm permite convertir documentos PDF a imágenes PPM, PNG o JPEG
- pdftopps convierte archivos PDF a PostScript
- pdftotext extrae todo el texto de un documento PDF
- pdfunite permite unir varios documentos en un único documento.
Instalación
En general poppler-utils viene instalado por defecto en Ubuntu, pero por si las moscas, en caso de que no lo tengas, puedes instalarlo haciendo clic en el siguiente enlace, o bien, desde un emulador de terminal ejecutar el siguiente comando,
sudo apt-get install poppler-utils
Conclusiones
No tengo muy claro que para unir y separar documentos estas herramientas sean las más cómodas, aunque yo para estos casos, siempre renombro los archivos que quiero unir anteponiendo un número que me permita saber el orden en que quiero unirlos.
Sobre todo para procesos repetitivos es cuando mas beneficio se puede sacar de estas herramientas corriendo en el emulador, o incluso utilizarlo desde Nautilus como un pequeño script.
Más información,
Para el ejemplo he utilizado un libro en PDF sobre Python «Hands-on Python Tutorial» que puedes descargar libremente y disfrutar con su lectura (en inglés).
Muchas gracias por compartir tus conocimientos