Archivos para debian

como extraer las imagenes y el texto de un pdf?

Publicado en howto con etiquetas , , , , , , el Enero 2, 2008 por eumetis

Para extraer las imágenes y texto de un archivo PDF, en las distribuciones basadas en debian podemos usar el paquete de herramientas de PDF poppler-utils:

Description: PDF utilitites (based on libpoppler)
This package contains pdftops (PDF to PostScript converter), pdfinfo (PDF document information extractor), pdfimages (PDF image extractor), pdftotext (PDF to text converter), and pdffonts (PDF font analyzer).

Con las distintas aplicaciones que provee esta librería, podemos extraer:

  • Todas las imágenes del PDF con pdfimage (usamos la opción -j para obtener jpegs en lugar de archivos binarios ppm).
  • Todo el texto del pdf con pdftotext.
  • Información sobre las tipografías utilizadas con pdffonts.

Ejemplos:

pdfimages -j CASANVISIBLE.pdf casa_invisible

extraerá todas las imágenes del archivo CASANVISIBLE.pdf y les pondrá de nombre casa_invisible-001.jpg, casa_invisible-002.jpg, casa_invisible-003.jpg….

pdftotext CASANVISIBLE.pdf texto.txt

extraerá el texto del pdf CASANVISIBLE.pdf y lo escribirá en el archivo texto.txt