Portal de la Junta de Andalucía
Buscador general

p. ej. ofertas de empleo, ayudas, escolarización...

Datos abiertos > Tutoriales > Profundiza en tus conocimientos > Extraer tablas de datos de documentos PDF con Tabula

Extraer tablas de datos de documentos PDF con Tabula

Tabula es una herramienta que te permite extraer los datos de las tablas que aparecen en documentos PDF a través de una interfaz web sencilla.

En este tutorial aprenderemos cómo subir un archivo PDF para poder extraer los datos tabulares en formato CSV, listos para su uso con un programa de hojas de cálculo. Tabula permite la extracción de tablas en aquellos documentos PDF basados en texto, no en los que contienen páginas escaneadas como imágenes.

En el tutorial trabajaremos a partir del siguiente conjunto de datos:

Conjunto de datos

El conjunto de datos nos lleva a una página de la Consejería de Salud desde la que podemos descargar los distintos informes. Elegiremos los datos de calidad sanitaria de las aguas de baño en Málaga, en la segunda quincena del mes de junio de 2017. Para ello, accederemos dentro de "Informes por quincena" al apartado "junio - segunda quincena" y, cuando aparezca el mapa de Andalucía, pulsaremos sobre la provincia de Málaga.

Mapa de Andalucía

Se descargará un documento en formato PDF de dos páginas:

Documento PDF 1/2 Documento PDF 2/2

Ya con los datos que vamos a trabajar descargados,instalaremos la herramienta Tabula, en la versión correspondiente al sistema operativo con el que estemos trabajando (Windows, Mac o Linux) de acuerdo con las instrucciones que aparecen en su sitio web. Una vez instalada abriremos en un navegador web (Chrome, Firefox, Explorer...) la dirección http://127.0.0.1:8080 para empezar a trabajar.

Herramienta Tabula

El siguiente paso es importar un PD. Para ello pulsaremos el botón "Browse" y elegiremos el fichero "segunda_quincena_junio_2017_malaga.pdf" en nuestro sistema de archivos:

Tabula - abrir archivos

Una vez abierto el archivo, pulsaremos el botón "Import". Aparecerá en Tabula una página como la siguiente:

Tabula - tablas de datos

A continuación, pulsaremos el botón "Autodetect tables", ubicado en la parte superior de la página, para que la herramienta intente detectar las tablas disponibles. Si la detección automática falla, también es posible seleccionar a mano las zonas de extracción.

Tabula - datos seleccionados

Una vez aparezcan marcadas las tablas, pulsaremos el botón "Preview & Export extracted data" coloreado en verde y ubicado en la parte superior de la hoja. Cuando lo hayamos pulsado, se mostrará una previsualización de los datos:

Tabula - previsualización

Para obtener los datos en CSV, seleccionaremos en el campo desplegable "Export format" el formato CSV y, a continuación, pulsaremos el botón "Export". Obtendremos un fichero como el siguiente:

Este fichero se puede abrir con un programa de hojas de cálculo como Excel, LibreOffice Calc o Google Hojas de Cálculo. Como se trata de un fichero CSV, para que el programa lo interprete correctamente tendremos que seleccionar varias opciones al abrir el archivo: 

  • La codificación de caracteres: Unicode UTF-8.
  • El carácter separador: Coma (,).
  • El delimitador de texto: Comillas dobles (").

La siguiente imagen muestra cómo rellenar las opciones de importación en LibreOffice Calc:

Tabula - importar datos

De una forma sencilla, tendremos los datos listos para trabajar con ellos en una hoja de cálculo. Si quieres aprender más sobre qué cosas puedes hacer con los datos a partir de este punto, te recomendamos que consultes nuestro tutorial "Trabajar con los datos en hojas de cálculo con Libreoffice Calc".

¿Aún tienes dudas?

Si tienes cualquier duda o necesitas más información puedes llamar al teléfono 955 062 627 o escribir al correo informacion@juntadeandalucia.es

¿Te ha sido útil esta información?

Encuesta
Tu voto:
Resultado: 1 Puntos 2 Puntos 3 Puntos 4 Puntos 5 Puntos (3 votos)

Atención: Por favor, marca cuántas estrellas crees que merece esta página y después haz clic en el botón de valorar

¿Cómo mejorarías esta página? Ver más

Ayúdanos enviándonos tus sugerencias. Recuerda no dejar datos de carácter personal.

Sugerencia