Importar e transformar dados do PDF para o Excel

Neste artigo iremos mostrar como fazer para importar uma tabela de dados do PDF para o Excel utilizando o Power Query e também iremos mostrar como fazer algumas transformações/edições nos dados antes de finalizar a importação da tabela de dados para o Excel.

Para nos auxiliar neste exemplo, iremos utilizar um arquivo PDF disponibilizado publicamente pela Equatorial Energia, que mostra as demonstrações financeiras da empresa no primeiro trimestre de 2023(1T23).

Youtube

Assista ao vídeo abaixo, caso prefira aprender como importar e transformar dados do PDF para o Excel assistindo a um vídeo.

Não se esqueça de se INSCREVER no nosso canal.

E coloque o seu melhor e-mail abaixo para receber todas as nossas novidades em primeira mão.

Importar mais de uma tabela de dados

Se você quiser importar mais de uma tabela de dados do seu arquivo PDF, você pode visualizar o seguinte artigo.

Agora, se as tabelas de dados tiveram colunas diferentes umas das outras, será necessário utilizar este artigo.

O PDF é uma foto?

Antes de pensarmos em importar dados do PDF para o Excel, precisamos garantir que o arquivo PDF seja um arquivo PDF com dados estruturados e não um arquivo PDF com uma “foto” dos dados estruturados.

Mas como eu sei a diferença?

Na imagem 1, ao tentar selecionar os dados, foi selecionado todo o espaço disponível.

Já na imagem 2, quando selecionei os dados, foram só os dados selecionados.

Os espaços em branco não foram selecionados como na imagem 1.

APRENDA POWER BI HOJE

QUERO APRENDER POWER BI

Dessa forma conseguimos ver que a “Imagem 1” é uma foto de um arquivo PDF e a “Imagem 2” é um arquivo PDF com dados estruturados e é esse o arquivo que iremos utilizar.

Importar tabela do PDF para o Excel

Para importar uma tabela de dados de um arquivo PDF para o Excel será necessário utilizar o Power Query.

Infelizmente essa ferramenta só está presente nas versões mais recentes do Excel.

Para abrir um arquivo utilizando o Power Query, vá na guia “Dados”.

Dentro da guia “Dados”, clique em “Obter Dados”.

Mais opções irão aparecer para baixo, clique em “De Arquivo” e nas opções que apareceram clique em “De PDF”.

Depois, irá aparecer uma janela para selecionar o arquivo desejado. Selecione o arquivo e clique em “Abrir”.

O arquivo que selecionamos só tem 1 página e nessa página tem um pouco de texto e uma tabela de dados, que é o que nos interessa.

Uma nova janela irá aparecer dentro do Excel, esse é o navegador do Power Query.

Nessa tela irá aparecer os itens do arquivo PDF que o Power Query conseguiu identificar.

No nosso caso, foram dois itens identificados, toda a página 1 do arquivo(Page001) e também uma tabela de dados presente na página 1(Table001).

Agora vamos interagir um pouco com essa janela.

Ao clicar em “Table001(Page 1)”, o Excel ira mostrar a direita a tabela que ele conseguiu identificar da página 1.

Veja que o cabeçalho é o mesmo que tem no arquivo PDF assim como os dados.

Agora, quando clicamos em “Page001”, o Excel irá mostrar todos os itens presentes na página 1.

  1. Texto que o Excel identificou presente no PDF
  2. A tabela de dados presente no PDF.

Dessa forma, dá para entender que a opção “Table001(Page 1)” irá mostrar somente a tabela de dados da página 1 e a opção “Page001” irá mostrar tudo que está na página 1, texto ou tabela, não importa.

Outra forma de identificar um arquivo PDF válido

Antes de darmos continuidade com o nosso artigo, vamos fazer o seguinte.

Vamos fechar a janela do navegador e dessa vez vamos abrir o arquivo PDF que tem a FOTO dos dados e ver como o Excel irá tratar esse arquivo.

Para fechar a janela, você pode clicar no “X” ou em “Cancelar”.

Vamos repetir os passos que falamos logo acima.

Vá na guia “Dados”. Dentro da guia “Dados”, clique em “Obter Dados”. Mais opções irão aparecer para baixo, clique em “De Arquivo” e nas opções que apareceram clique em “De PDF”.

Irá aparecer a janela aonde iremos escolher qual o arquivo queremos importar para dentro de Excel.

Vamos selecionar o arquivo que é a foto de um arquivo PDF.

Ao abrir a janela do navegador do Power Query já conseguimos ver uma diferença.

Dessa vez a tabela, Table001(Page 1), não está aparecendo.

Isso quer dizer que o Power Query não conseguiu identificar nenhuma tabela no arquivo, só conseguiu identificar a página.

Então, vamos clicar em “Page001” e ver o que o Power Query conseguiu identificar.

E veja só, está aparecendo a mensagem “Esta tabela está vazia”.

O Power Query não conseguiu identificar nada na página, nem texto, nem dados, nem tabelas, por isso que está aparecendo essa mensagem.

Com mais esse exemplo, conseguimos identificar quando um arquivo PDF contém dados estruturados e quando o arquivo contém uma foto dos dados.

Janela “Navegador”

Vamos voltar com o nosso arquivo inicial e iremos explicar um pouco mais a janela do navegador ao selecionar a tabela de dados, “Table001(Page 1)”.

Ao selecionar o “Table001(Page 1)”, o Excel mostra do lado direito a tabela de dados que ele conseguiu identificar.

Agora você tem 2 opções carregar essa tabela para o Excel ou fazer alguma alteração na tabela, “Transformar”, antes de importar a tabela de dados para o Excel.

Se for necessário realizar alguma transformação/alteração nos dados basta clicar em “Transformar Dados”. Agora se da forma que os dados estão, já é o suficiente basta ir em “Carregar”.

Em “Carregar”, aparecerá duas opções “Carregar” e “Carregar para…”.

Se você escolher por “Carregar”, o Excel irá automaticamente criar uma nova aba/planilha e irá importar os dados da tabela nessa nova aba.

Agora, se você escolher por “Carregar para…” o Excel irá abrir uma janela com algumas opções a mais para você escolher antes de importar os dados da tabela para o Excel.

Iremos explicar um pouco mais sobre essa segunda opção.

Carregar os dados do PDF para o Excel

Após clicar em “Carregar para…” o Excel irá abrir a janela “Importar Dados”.

Nessa janela o Excel quer saber 2 importantes informações.

  1. Como os seus dados serão exibidos: tabela, tabela dinâmica, gráfico dinâmico ou apenas criar conexão.
  2. Aonde os dados serão salvos. Na aba/planilha existente ou em uma nova.

Para o nosso exemplo iremos selecionar a opção “Tabela” para como será exibidos os dados.

E “Na nova planilha” aonde será importada a tabela de dados.

Pronto, importamos com sucesso os dados do PDF para o Excel.

Veja que o Excel criou uma nova aba/planilha chamada de “Table001 (Page 1)”.

Além disso o cabeçalho da nossa tabela é idêntico ao cabeçalho da tabela no PDF, e todos os dados presentes na tabela do arquivo PDF estão presentes na tabela do Excel.

E por último, veja que o Excel abriu uma janela do lado direito do Excel mostrando que o Excel está conectado com a tabela da página 1 do Excel.

Transformar dados do PDF

Agora vamos dar um pouco de ênfase na opção “Transformar” que irá editar os dados antes deles serem importados para dentro do Excel.

Então antes de começarmos, vamos deletar a nova aba que foi criada, assim como a conexão.

Para deletar a nova aba, bastar clicar com o botão direto do mouse em cima dela e clicar em “Excluir”.

Para excluir a conexão, novamente clique com o botão direito do mouse na conexão e selecione “Excluir”.

Ao clicar em “Excluir”, irá aparecer uma janela perguntando se realmente você quer excluir a conexão. Clique em “Excluir”.

Pronto, a nova aba que foi criada e a conexão foram excluídas.

Vamos novamente abrir o nosso arquivo PDF. Vá na guia “Dados”. Dentro da guia “Dados”, clique em “Obter Dados”. Mais opções irão aparecer para baixo, clique em “De Arquivo” e nas opções que apareceram clique em “De PDF”.

Na janela “Navegador” clique na tabela e dessa vez iremos clicar em “Transformar”.

Irá abrir a tela de edição do Power Query.

Aqui iremos fazer 2 coisas. Iremos alterar os dados da coluna “Código da Conta” para texto e iremos alterar o nome das duas últimas colunas.

Alterar o tipo do dado de uma coluna

Tem 2 formas para alterar a coluna “Código da Conta” para texto.

A primeira é clicando nos números do lado do nome da coluna e depois selecionar “Texto”. 

A segunda forma é selecionar toda a coluna “Código da Conta”, e ir na “Página Inicial”, clicar em “Tipo de Dados” e selecionar a opção “Texto”.

Em ambas as opções, após clicar em “Texto” irá aparecer uma janela para você escolher uma das opções.

  1. Ao clicar “Substituir atual”, o Power Query irá converter a coluna para texto e substituirá a formatação dos dados para a formatação que está no arquivo PDF, que são os pontos(.) entre os números.
  2. Ao clicar “Adicionar nova etapa”, o Power Query irá adicionar uma etapa em “Etapas Aplicadas” e irá converter os números para texto, porém mantendo a formatação deles.

Neste artigo iremos selecionar “Substituir atual” para que os nossos dados fiquem parecidos com os do arquivo PDF.

Agora vamos alterar o cabeçalho das duas últimas colunas e para isso basta clicar duas vezes encima do cabeçalho da coluna que irá habilitar o modo de edição do nome do cabeçalho.

Vamos alterar o cabeçalho das nossas colunas para 1T2023 e 4T2022 respectivamente, ficando parecido com a imagem abaixo.

Agora, vamos fechar essa janela e importar as alterações que fizemos para o Excel.

Vá em “Pagina Inicial”, depois clique em “Fechar e Carregar”.

Nas opções que apareceram, selecione “Fechar e Carregar Para…”.

Vai aparecer a janela “Importar Dados”. Selecione “Tabela” e “Na nova planilha”.

Por último clique em “OK”.

A tabela de dados do arquivo PDF com as alterações que fizemos foi importada para o Excel.

O Excel criou uma nova planilha, Table001(Page 1), e importou os dados transformados para essa aba/planilha.

Veja como ficaram os dados da coluna “Código da Conta”. Eles ficaram bem parecidos com os dados do arquivo PDF.

Já o cabeçalho das últimas duas colunas, ficaram conforme as transformações que realizamos no editor do Power Query.

A seguir comparamos as duas importações que realizamos neste artigo.

Fica nítido a diferença entre elas.

Na tabela a esquerda foi a nossa primeira importação e nela só nos preocupamos em importar o dado.

Já na segunda imagem, antes de importar os dados do arquivo PDF para o Excel realizamos algumas transformações neles.

Mas de qualquer forma, em ambas as formas que fizemos, conseguimos o que queríamos, que era importar uma tabela de dados de um arquivo PDF para o Excel.

COMPARTILHE OU COMENTE

Chegamos ao final do artigo.

Se você curtiu esse artigo compartilhe com as suas redes sociais e não se esqueça de deixar um comentário aqui embaixo.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *