Tutorial: Tornar um PDF pesquisável

Publicado por Sofia - 21 de out. de 2014

combatentes.JPGPara podermos pesquisar um documento em formato PDF, é preciso que ele contenha texto. 

Normalmente, os PDF contém apenas imagens  das páginas digitalizadas com texto impresso, não texto verdadeiro.

É possível tornar o PDF pesquisável através de uma aplicação de reconhecimento de texto (OCR).

Os resultados variam com a qualidade da digitalização constante do PDF. O reconhecimento de textos em português antigo pode não ficar perfeito, uma vez que o software existente é para leitura de português moderno.

No entanto, um reconhecimento de texto, ainda que imperfeito, é sempre uma ajuda.

Veja como executar o reconhecimento de texto com um software gratuito e simples de utilizar.

1. Fazer o descarregamento do software

Descarregue o PDF-XChange Viewer aqui: http://www.tracker-software.com/product/downloads

Tenha duas coisas em atenção durante a instalação:

a) Desmarque a opção de usar o PDF-XChange Viewer como visualizador padrão de ficheiros PDF, se pretende continuar a usar o seu programa habitual.

PDFXCHANGE1.JPG

b) Selecione a opção ‘Free Version’.

PDFXCHANGE2.JPG

2. Fazer o reconhecimento de um documento em PDF

Uma vez instalado o software, abra o PDF XChange Viewer, e o PDF ao qual pretende fazer o reconhecimento de texto.

No menu ‘Documentos’, selecione ‘Páginas OCR’.

PDFXCHANGE3.JPG

Selecione o intervalo de páginas (geralmente ‘Todas’), a língua (neste caso, ‘Português’), a precisão (‘Alto’) e o tipo de saída – recomendamos a utilização de ‘Preservar o conteúdo original e adicionar camada de texto’.

Clique em OK, e deixe terminar o processo de reconhecimento de texto. O tempo vai depender do número de páginas do documento original.

No final, grave o documento:

PDFXCHANGE4.JPG

Obtém um PDF com o mesmo aspeto, mas agora o texto é pesquisável.

Original deste tutorial por Rita Vz  em: http://genealogiafb.blogspot.pt/2014/08/tutorial-como-tornar-um-pdf-pesquisavel.html 

Inicie sessão para deixar um comentário. Iniciar sessão / Registo