Como usar Apache PDFBox para leitura de arquivos em PDF

Este post mostra um exemplo de como utilizar o Apache PDFBox para fazer a leitura de arquivos em PDF

Wolmir Cezer Garbin por Wolmir Cezer Garbin - - Java - TUTORIAL

Última atualização em: | 12793 Visualizações

Segundo o próprio site do PDFBox, o Apache PDFBox é uma ferramenta Java de software livre para trabalhar com documentos PDF e permite a criação de novos documentos PDF, a manipulação de documentos existentes e a capacidade de extrair conteúdo de documentos.

Nestes exemplos focaremos em fazer a leitura de um arquivo em PDF.

Dependência Apache PDFBox

Para que seja possível utilizar a biblioteca adicionaremos a dependência no arquivo pom.xml.

<dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.11</version>
</dependency>


Lendo arquivo PDF com Apache PDFBox

Para este exemplo utilizei uma versão em PDF do documento utilizado para enviar novas postagens para o Receitas de Código.

Você pode baixar usando o link: https://drive.google.com/file/d/14CRjFR0U1hDvT42WzOvzHcshAh9MprVz/view?usp=sharing

Caso queira pode utilizar outro PDF.

Com o arquivo PDF, já podemos escrever o código para realizar a leitura.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;

import java.io.File;
import java.io.IOException;

public class PDFReadMain {

    public static void main(String[] args) throws IOException {

        File file = new File("/home/wolmir/Informações para envio de post ao Receitas de Código.pdf");

        try (PDDocument document = PDDocument.load( file )) {

            if (!document.isEncrypted()) {
			
                PDFTextStripperByArea stripper = new PDFTextStripperByArea();
                stripper.setSortByPosition(true);

                PDFTextStripper tStripper = new PDFTextStripper();

                String pdfFileInText = tStripper.getText(document);

                String lines[] = pdfFileInText.split("\\r?\\n");
                for (String line : lines) {
                    System.out.println(line);
                }
            }
        }
    }
}

Note que criamos um objeto File para carregar o objeto, usando o objeto PDDocument.load() carregamos o arquivo em PDF e por fim usamos o PDFTextStripper para fazer a leitura do arquivo.

Como resultado temos a leitura do PDF sendo impressa no console.

Receitas de Código 
 
http://receitasdecodigo.com.br
 
 
Publicar um post no Receitas de Código é muito simples, basta seguir os passos: 
 
Informações do Autor 

[...]

Não esqueca de deixar suas dúvidas nos comentários e compartilhar este post.


Apoiadores

Publique seu post no Receitas de Código

Aguarde, estamos trabalhando para que você possa publicar sua postagem no Receitas de Código!