Convertir archivos PDF a HTML manteniendo el formato con pdf2htmlEX

Introducción

De forma habitual, siempre que envío un documento vía correo electrónico lo hago en formato PDF, aunque lo acompañe del archivo original para su modificación. Esto lo hago por dos motivos, por un lado, para que el receptor pueda imprimir el archivo como yo lo he creado, y por otro lado, para asegurarme, que aunque modifique el archivo, siempre tiene el documento de partida que le remití.

Sin embargo, en ocasiones es necesario tener el archivo también en otros formatos además de PDF, aunque solo te lo envíen en este formato. Ya sea porque no dispones de un visor adecuado, o bien porque quieres mostrarlo en una página web…, como es el caso que nos ocupa.

La herramienta que quiero presentar es pdf2htmlEX, y precisamente hace lo que he comentado, convertir archivos PDF a html, pero de una forma particular…

0025_Selección.png

pdf2htmlEX

pdf2htmlEX es una utilidad para ejecutar desde el terminal, que renderiza archivos PDF en html, pero procurando que el archivo generado mantenga el formato del archivo original lo mas fielmente posible. De esta forma, esta utilidad, esta especialmente pensada y diseñada para archivos PDF de texto, sobre todo para documentos científicos con complicadas fórmulas y figuras.

Solo tienes que visitar estos dos ejemplos Typography y
Formulas. En cuyo segundo caso, da un resultado verdaderamente impresionante:

0022_Selección.png

El texto, las fuentes y los formatos se conservan de forma nativa en html, de forma que tu puedes buscar y copiar. El archivo html generado es estático y sin ningún script. De esta manera, puedes incluir en un sitio web la renderización del archivo PDF sin necesidad de incluir complementos a tu gestor de contenidos, ya sea WordPress, Drupal, Joomla, o el que sea que utilices.

Instalación

Esta utilidad no está disponible en el Centro de Software de Ubuntu, pero lo puedes instalar para Oneiric, Precise y Quantal, añadiendo el siguiente repositorio, actualizando e instalando:


sudo add-apt-repository ppa:coolwanglu/pdf2htmlex && sudo apt-get update && sudo apt-get install pdf2htmlex

Si estás utilizando ya Raring, y quieres instalar esta herramienta, puedes descargar el paquete debian para 32 bits o para 64 bits

Comparando

He realizado varias pruebas para ver que tal se comportaba esta herramienta, y lo cierto es que hay momentos en que es difícil discernir entre cual es el renderizado por Firefox, y cual es el renderizado por esta aplicación:

Sin nombre.png

Más información | pdf2htmlEX

5 comentarios en “Convertir archivos PDF a HTML manteniendo el formato con pdf2htmlEX

  1. MA
    Marlon Eguia hace 12 años

    Hay algun manual de como usarlo??

    1. RV
      rv hace 12 años

      Ahí abajo @disqus_1Wr6kMchq9:disqus puso algo al respecto, por si no lo viste 🙂

  2. RH
    Rho hace 12 años

    hola, se ve muy bueno… como se usa?

    1. RH
      Rho hace 12 años

      ok es ultra simple y el resultado es impresionante realmente…
      en una terminal:

      pdf2htmlEX mi_archivo.pdf

      …obvio hay un monton de opciones, pero con la conversión default funciona de maravilla. hizo un solo html con todo *_* IMPRESIONANTE

  3. RV
    rv hace 12 años

    ¡Muy bueno!, y muy interesante. Gracias por postearlo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *