O programa é projetado para extrair textos de arquivos de diferentes formatos. O texto extraído pode ser montado em um único arquivo e/ou distribuídos em vários arquivos. Ao texto podem ser aplicadas as regras dos dicionários de correção da pronúncia do programa Balabolka.

São suportados os seguintes formatos de arquivo: AZW, AZW3, CHM, DjVu, DOC, DOCX, EML, EPUB, FB2, FB3, HTML, LIT, MD, MHT, MOBI, ODP, ODS, ODT, PDB, PDF, PPT, PPTX, PRC, RTF, TCR, TXT, WPD, WRI, XLS, XLSX.

01 - Passo

Realize o download do balabolka através do link :

02 - Passo

Para o exemplo gerei 02 arquivos no formato PDF para demonstrar a extração dos textos :

  • PDF-01.pdf

  • PDF-02.pdf

03 - Passo

Criar uma pasta nomeada como 100SECURITY para centralizar todos os arquivos :

Windows
C:\>cd 100SECURITY C:\100SECURITY>dir

04 - Passo

Criar uma pasta nomeada como Texto para armazenar os textos extraídos :

Windows
C:\100SECURITY>md Texto C:\100SECURITY>dir

05 - Passo

Uma das opções para realizar a extração do texto é utilizar o balabolka seguido do parâmetro -k informando um dos textos que estão dentro do arquivo PDF além do parâmetro %Firstline%

Ao ler o conteúdo do arquivo "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt" você pode observar que mais textos foram armazenados neste arquivo.

Windows
C:\100SECURITY>blb2txt.exe -f "PDF-01.pdf" -v "C:\100SECURITY\Texto" -k "Senha :" -p %Firstline% C:\100SECURITY> C:\100SECURITY>cd Texto C:\100SECURITY\Texto>dir C:\100SECURITY\Texto> C:\100SECURITY\Texto>type "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt"

06 - Passo

Outra opção para realizar a extração do texto é utilizar o balabolka seguido do parâmetro -k para cada texto em destaque que você deseja extrair.

Agora ao ler o conteúdo do arquivo "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt" você pode observar que o arquivo contém apenas o texto referente a Senha.

Windows
C:\100SECURITY>blb2txt.exe -f "PDF-01.pdf" -v "C:\100SECURITY\Texto" -k "Senha :" -k "Pagina :" -k "Nome :" -k "Ano :" -p %Firstline% C:\100SECURITY> C:\100SECURITY>cd Texto C:\100SECURITY\Texto>dir C:\100SECURITY\Texto> C:\100SECURITY\Texto>type "Senha V1dXLjEwMFNFQ1VSSVRZLkNPTS5CUg==.txt"

07 - Passo

Se você necessita realizar uma extração de texto em massa você pode utilizar o for na execução do balabolka, para isso basta criar um arquivo pdf.txt contento a relação de todos os arquivos que deseja avaliar.

Windows
C:\100SECURITY>dir C:\100SECURITY> C:\100SECURITY>type pdf.txt PDF-01 PDF-02

08 - Passo

Executando o for com o balabolka.

Windows
C:\100SECURITY>for /f %a in (pdf.txt) do md C:\100SECURITY\Texto\%a | blb2txt.exe -f %a.pdf -v "C:\100SECURITY\Texto\%a" -k "Senha :" -k "Pagina :" -k "Nome :" -k "Ano :" -p %Firstline% C:\100SECURITY> C:\100SECURITY>cd Texto C:\100SECURITY\Texto>dir C:\100SECURITY\Texto>cd PDF-01 C:\100SECURITY\Texto\PDF-01>dir C:\100SECURITY\Texto\PDF-01> C:\100SECURITY\Texto\PDF-01>cd .. C:\100SECURITY\Texto> C:\100SECURITY\Texto>cd PDF-02 C:\100SECURITY\Texto\PDF-02>dir

👍 Se este artigo te ajudou compartilhe!



  Autor

Marcos Henrique

 São Paulo/SP



  Coleta de Informações

© 2022 - 100SECURITY

Contato