Como usar Apache PDFBox para leitura de arquivos em PDF
Este post mostra um exemplo de como utilizar o Apache PDFBox para fazer a leitura de arquivos em PDF
Última atualização em: | 13474 Visualizações
Segundo o próprio site do PDFBox, o Apache PDFBox é uma ferramenta Java de software livre para trabalhar com documentos PDF e permite a criação de novos documentos PDF, a manipulação de documentos existentes e a capacidade de extrair conteúdo de documentos.
Nestes exemplos focaremos em fazer a leitura de um arquivo em PDF.
Dependência Apache PDFBox
Para que seja possível utilizar a biblioteca adicionaremos a dependência no arquivo pom.xml
.
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.11</version>
</dependency>
Lendo arquivo PDF com Apache PDFBox
Para este exemplo utilizei uma versão em PDF do documento utilizado para enviar novas postagens para o Receitas de Código.
Você pode baixar usando o link: https://drive.google.com/file/d/14CRjFR0U1hDvT42WzOvzHcshAh9MprVz/view?usp=sharing
Caso queira pode utilizar outro PDF.
Com o arquivo PDF, já podemos escrever o código para realizar a leitura.
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
import java.io.File;
import java.io.IOException;
public class PDFReadMain {
public static void main(String[] args) throws IOException {
File file = new File("/home/wolmir/Informações para envio de post ao Receitas de Código.pdf");
try (PDDocument document = PDDocument.load( file )) {
if (!document.isEncrypted()) {
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
PDFTextStripper tStripper = new PDFTextStripper();
String pdfFileInText = tStripper.getText(document);
String lines[] = pdfFileInText.split("\\r?\\n");
for (String line : lines) {
System.out.println(line);
}
}
}
}
}
Note que criamos um objeto
File
para carregar o objeto, usando o objetoPDDocument.load()
carregamos o arquivo em PDF e por fim usamos oPDFTextStripper
para fazer a leitura do arquivo.
Como resultado temos a leitura do PDF sendo impressa no console.
Receitas de Código
http://receitasdecodigo.com.br
Publicar um post no Receitas de Código é muito simples, basta seguir os passos:
Informações do Autor
[...]
Não esqueca de deixar suas dúvidas nos comentários e compartilhar este post.