Buscando casi todo tipo de archivos en Ubuntu con Recoll

Introducción

Transcurridos unos años de uso del ordenador, este se convierte en un increíble almacén donde guardas casi de todo, siempre con la esperanza de que cuando lo vayas a necesitar lo tendrás ahí. Y cierto es, que probablemente lo tengas ahí, siempre, que no te pase como me suele suceder a mi, que de vez en cuando me da un ataque de ordenitis, y termino por borrar lo que toca y lo que no toca.

Ahora bien, con ese síndrome de almacenitis, es muy probable, que tengas tanta información, que sea, casi imposible localizar aquello que buscas. Ahora bien, para esto existe una solución Recoll, una herramienta de búsqueda, que te permite bucear entre toda la documentación que tienes. Pero, no solo en el nombre del archivo, sino lo que es mas interesante en el interior del archivo.

0125_Área de trabajo 1.png

Recoll

Recoll es una herramienta que te permite indexar diferentes formatos de archivo. Algunos archivos son indexados de forma nativa por Recoll, mientras que otros necesita de herramientas externas. Así, de forma nativa puede indexar los siguientes:

  • texto plano
  • html
  • maildir y mailbox ( Mozilla, Thunderbird and Evolution mail ok)
  • gaim
  • Scribus
  • Páginas Man
  • Diagramas Dia

Por otro lado, existen otros archivos que necesita de herramientas externas, como puede ser iconv, xslproc, unzip, pdftotext, antiword, etc. Pero esto te permitirá indexar gran cantidad de formatos distintos, como:

  • Abiword
  • Fb2
  • Kword
  • Microsoft Office Open XML
    *SVG
  • Gnumeric
  • Okular
  • pdf
  • MS Word
  • Wordperfect
  • Lyx
  • Powerpoint y Excel
  • CHM

Pero, además tiene otras características que lo hacen muy interesante, como es la posibilidad de la utilización de complementos para Firefox para indexar el histórico de páginas web, o el procesamiento de los archivos adjuntos de los correos electrónicos. También es posible seleccionar diferentes bases de datos, e incluso dispone de herramientas que facilitan la búsqueda a través de operaciones lógicas, utilización de filtros, o la utilización de comodines.

Además, soporta múltiples lenguajes que procesa de forma interna, almacenándolo siempre en UNICODE UTF-8.

0123_Recoll.png

Novedades en Recoll 1.19

Esta nueva versión de Recoll, viene cargada de interesantes novedades, entre las que, Los desarrolladores destacan las siguientes:

  • El indexado puede utilizar diferentes hilos. Esto es una verdadera ventaja para usuarios que tengan equipos con varios procesadores (esto prácticamente lo tiene casi cualquier equipo hoy en día).
  • En esta nueva versión, es posible combinar OR con dir:
  • El panel de búsqueda avanzada muestra la posibilidad de ver el histórico de tus búsquedas, permitiéndote utilizar las teclas arriba y abajo para desplazarte en el mismo.
  • Se ha añadido algunas opciones adicionales en la configuración que te permitirán deshabilitar el autcompletado de Qt en la entrada de búsqueda, o buscar automáticamente conforme escribes. Tal y como mencionan los propios desarrolladores de Recoll, muchas veces, el autocompletado es mas confuso que útil, sobre todo en aquellos casos, donde hay que distinguir entre mayúsculas y minúsculas.
  • Cuando se utiliza la opción de colapsar resultados idénticos, los documentos que tienen duplicados se muestran con un enlace a la lista de los mencionados duplicados.
  • En el caso de archivos de vídeo, con la nueva versión de Recoll, se indexa el nombre del archivo, y en la lista de resultados verás un botón que te permitirá iniciar el reproductor que hayas configurado.
  • Ahora, puedes acceder a los índices de Recoll a través de un navegador web.

Instalación

Para instalar la ultima versión de Recoll tendrás que añadir el repositorio oficial, actualizar e instalar:


sudo add-apt-repository ppa:recoll-backports/recoll-1.15-on
sudo apt-get update
sudo apt-get install recoll

Si quieres instalar también la Lente, tendrás que ejecutar el siguiente comando en un terminal:


sudo apt-get install recoll-lens

Una vez instalada la Lente, si quieres probarla tendrás que salir de la sesión y volver a entrar, o bien, reiniciar Unity utilizando el atajo de teclado ALT+F2 y ejecutando unity

Conclusiones

Tanto si utilizas el Dash, como si utilizas directamente Recoll se trata de una importante herramienta para la búsqueda y localización de cualquier documento, con todas las posibilidades indicadas anteriormente. Desde luego que se trata de una herramienta totalmente recomendable.

Mas información | Recoll
Vía | WebUpd8

10 comentarios en “Buscando casi todo tipo de archivos en Ubuntu con Recoll

  1. FR
    Francisco Pablo Castillo Roig hace 11 años

    Si no recuerdo mal (ahora estoy en archlinux) ubuntu tenía activado tracker y zeitgeist. Para que necesitas recoll, otro indexador más relentizando el sistema?

    Q tal funciona de recursos? integra con gnome 3 también?

  2. AN
    andye hace 11 años

    Tracker ya no se instala por defecto con Ubuntu. Y Zeitgeist tiene un
    problemilla y es que solo indexa el contenido que ya has usado. Por lo
    que si no abres un documento, carpeta o archivo, no te aparece en la
    lente del dash.

    En cuanto a recoll lo probé hace unos
    años y el principal hándicap que le ví es que consumía demasiados
    recursos (sobre todo cpu) al realizar la indexación.

    Estoy instalándolo en este mismo momento y espero que haya mejorado el consumo de cpu.

    1. CH
      chronosghost hace 11 años

      Ok, pero sigo con lo mismo. Q tiene de nuevo o mejor recoll frente a tracker. Muy evolucionado y sustentado por gnome ?
      Que conste que no estoy defendiendo a a tracker, ni nada por el estilo. Es simplemente intentar dilucidar que sistema puede ir mejor.

      Zeitgeist es un indexador temporal de uso y además va de aquella manera, al menos en gnome y arch. Tienes toda la razón, lo ponía porque si tienes activados ambos servicios y añades recoll…pues ya me dirás.

      1. AN
        andye hace 11 años

        Hablo del caso en que tracker no esté instalado en el sistema. Yo no lo tengo instalado, solo zeitgeist. Y el problema que le veo a recoll es que el indexado consume demasiados recursos. Puede ser que sea por el hecho de que yo indexo un directorio montado por cifs. Pero es que llega un momento en que me consume muchísima memoria y cpu.
        De todas formas el hecho de tener una lente para el dash es algo que me parece muy valioso. A parte de las búsquedas que hace, el poder filtrar desde la lente.
        Muy completo, sino fuera por el consumo del indexador.

        1. SI
          Sicofante hace 11 años

          El indexado consume recursos la primera vez. Cada vez que se añade un nuevo archivo, los recursos consumidos no son tan graves. Yo he probado Recoll y Tracker y no hay color. Recoll es fabuloso. Tracker es malo a rabiar (no me extraña que lo quitaran de la instalación por defecto).

          Pero hay que recordar que el dash encuentra archivos por su nombre sin mayores problemas. Solo si necesitas buscar archivos por su contenido necesitas Recoll. Yo se lo he instalado a un despacho de abogados y están felices.

          1. AN
            andye hace 11 años

            Tras tenerlo unos cuantos días funcionando he comprobado que es cierto lo que dices. El problema era que tenía que indexar tal cantidad de datos que se tiró muchísimo tiempo para hacerlo. Y en esos varios días el indexador se comió los recursos de mi sistema.

            Ahora que ya está todo indexado, el consumo es más comedido.

          2. SI
            Sicofante hace 11 años

            No sé si se podrá hacer algo con cron, pero lo suyo seguramente es que Recoll permitiera programar la indexación para períodos de inactividad, las noches, etc. Al menos para la primera ejecución.

          3. AN
            andye hace 11 años

            De hecho lo permite. Desde su interfaz puedes configurar el indexador.

            Se puede configurar de dos formas: por medio de una tarea en cron, o por medio de un demonio que arranca cada vez que se inicia sesión.

            Lo bueno del demonio es que el indexado es en tiempo real. Es decir, cada vez que se crea o modifica un archivo o carpeta dentro de las carpetas que le hayas indicado que indexe, automáticamente lo indexa.

            Tiene buena pinta, pero me he dado cuenta que hay algunos archivos que no indexa el contenido, como por ejemplo los sh. Y no está marcado para que los ignore. Debe ser porque le parece bien hacerlo así.

  3. SI
    Sicofante hace 11 años

    Sugiero humildemente que nos acostumbremos a usar «texto sin formato» en lugar del absurdo «texto plano». Plain no significa «plano», sino en todo caso «llano», «sin florituras», «sencillo» (y un montón de significados más, todos con ese sentido). La lamentable traducción plain=plano es una de esas que se basan en la fonética, como quien traduce carpet=carpeta…

    1. EL
      El atareao hace 11 años

      Muchas gracias, lo tendré en cuenta para las próximas ocasiones.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *