Como usar Apache PDFBox para leitura de arquivos em PDF

Postado em por Wolmir Cezer Garbin em Java | 296 Visualizações
Última atualização em:

Este post mostra um exemplo de como utilizar o Apache PDFBox para fazer a leitura de arquivos em PDF

Todo mundo tem algo para vender, AnuncieOn.com o melhor site de anúncios grátis de todo o Brasil. ABRIR

Segundo o próprio site do PDFBox, o Apache PDFBox é uma ferramenta Java de software livre para trabalhar com documentos PDF e permite a criação de novos documentos PDF, a manipulação de documentos existentes e a capacidade de extrair conteúdo de documentos.

Nestes exemplos focaremos em fazer a leitura de um arquivo em PDF.

Dependência Apache PDFBox

Para que seja possível utilizar a biblioteca adicionaremos a dependência no arquivo pom.xml.

<dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.11</version>
</dependency>


Lendo arquivo PDF com Apache PDFBox

Para este exemplo utilizei uma versão em PDF do documento utilizado para enviar novas postagens para o Receitas de Código.

Você pode baixar usando o link: https://drive.google.com/file/d/14CRjFR0U1hDvT42WzOvzHcshAh9MprVz/view?usp=sharing

Caso queira pode utilizar outro PDF.

Com o arquivo PDF, já podemos escrever o código para realizar a leitura.

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;

import java.io.File;
import java.io.IOException;

public class PDFReadMain {

    public static void main(String[] args) throws IOException {

        File file = new File("/home/wolmir/Informações para envio de post ao Receitas de Código.pdf");

        try (PDDocument document = PDDocument.load( file )) {

            if (!document.isEncrypted()) {
			
                PDFTextStripperByArea stripper = new PDFTextStripperByArea();
                stripper.setSortByPosition(true);

                PDFTextStripper tStripper = new PDFTextStripper();

                String pdfFileInText = tStripper.getText(document);

                String lines[] = pdfFileInText.split("\\r?\\n");
                for (String line : lines) {
                    System.out.println(line);
                }
            }
        }
    }
}

Note que criamos um objeto File para carregar o objeto, usando o objeto PDDocument.load() carregamos o arquivo em PDF e por fim usamos o PDFTextStripper para fazer a leitura do arquivo.

Como resultado temos a leitura do PDF sendo impressa no console.

Receitas de Código 
 
http://receitasdecodigo.com.br
 
 
Publicar um post no Receitas de Código é muito simples, basta seguir os passos: 
 
Informações do Autor 

[...]

Não esqueca de deixar suas dúvidas nos comentários e compartilhar este post.


Wolmir Cezer Garbin

Wolmir Cezer Garbin


Sou formado em Desenvolvimento de Sistemas para Internet pela faculdade Mater Dei e Pós graduado em Desenvolvimento de sistemas em Java pela UTFPR. Trabalho a mais de 9 anos com desenvolvimento em Java, Android e Web utilizando as principais tecnologias do mercado. Atuo como professor na faculdade Mater Dei, programador na Garbo Software e criador do Receitas de Código.

Ver mais

FIQUE POR DENTRO

Receba as novidades todo mês em seu e-mail!

Apoiadores


Publique seu post no Receitas de Código

Agora você pode publicar seu post no Receitas de Código e compartilhar seu conhecimento com muitas pessoas!

Quero publicar