Introducción
De forma habitual, siempre que envío un documento vía correo electrónico lo hago en formato PDF, aunque lo acompañe del archivo original para su modificación. Esto lo hago por dos motivos, por un lado, para que el receptor pueda imprimir el archivo como yo lo he creado, y por otro lado, para asegurarme, que aunque modifique el archivo, siempre tiene el documento de partida que le remití.
Sin embargo, en ocasiones es necesario tener el archivo también en otros formatos además de PDF, aunque solo te lo envíen en este formato. Ya sea porque no dispones de un visor adecuado, o bien porque quieres mostrarlo en una página web…, como es el caso que nos ocupa.
La herramienta que quiero presentar es pdf2htmlEX, y precisamente hace lo que he comentado, convertir archivos PDF a html, pero de una forma particular…
pdf2htmlEX
pdf2htmlEX es una utilidad para ejecutar desde el terminal, que renderiza archivos PDF en html, pero procurando que el archivo generado mantenga el formato del archivo original lo mas fielmente posible. De esta forma, esta utilidad, esta especialmente pensada y diseñada para archivos PDF de texto, sobre todo para documentos científicos con complicadas fórmulas y figuras.
Solo tienes que visitar estos dos ejemplos Typography y
Formulas. En cuyo segundo caso, da un resultado verdaderamente impresionante:
El texto, las fuentes y los formatos se conservan de forma nativa en html, de forma que tu puedes buscar y copiar. El archivo html generado es estático y sin ningún script. De esta manera, puedes incluir en un sitio web la renderización del archivo PDF sin necesidad de incluir complementos a tu gestor de contenidos, ya sea WordPress, Drupal, Joomla, o el que sea que utilices.
Instalación
Esta utilidad no está disponible en el Centro de Software de Ubuntu, pero lo puedes instalar para Oneiric, Precise y Quantal, añadiendo el siguiente repositorio, actualizando e instalando:
sudo add-apt-repository ppa:coolwanglu/pdf2htmlex && sudo apt-get update && sudo apt-get install pdf2htmlex
Si estás utilizando ya Raring, y quieres instalar esta herramienta, puedes descargar el paquete debian para 32 bits o para 64 bits
Comparando
He realizado varias pruebas para ver que tal se comportaba esta herramienta, y lo cierto es que hay momentos en que es difícil discernir entre cual es el renderizado por Firefox, y cual es el renderizado por esta aplicación:
Más información | pdf2htmlEX
Hay algun manual de como usarlo??
Ahí abajo @disqus_1Wr6kMchq9:disqus puso algo al respecto, por si no lo viste 🙂
hola, se ve muy bueno… como se usa?
ok es ultra simple y el resultado es impresionante realmente…
en una terminal:
pdf2htmlEX mi_archivo.pdf
…obvio hay un monton de opciones, pero con la conversión default funciona de maravilla. hizo un solo html con todo *_* IMPRESIONANTE
¡Muy bueno!, y muy interesante. Gracias por postearlo.