As imagens são uma ótima maneira de se comunicar sem texto, mas muitas vezes elas são usadas/abusadas para espalhar texto em mídias sociais e anúncios. O texto em imagens também apresenta um problema de acessibilidade. A verdade é que é importante, por vários motivos, poder detectar texto em arquivos de imagem. A incrível ferramenta de código aberto que possibilita a detecção de texto em imagens é a tesseract OCR!

Recomendo usar o Homebrew para instalar o tesseract:

brew install tesseract

Para executar o tesseract para ler o texto de uma imagem, o senhor pode executar o seguinte na linha de comando:

tesseract ~/Downloads/MyImage.png ~/Downloads/MyImage.txt -l eng

O comando acima extrai o texto detectado no idioma inglês (-l eng) em um arquivo de texto (MyImage.txt). O processo é muito rápido e há dezenas de idiomas compatíveis.

Vejamos o exemplo a seguir:

O texto a seguir é detectado:

International
‘Champions
Cup

~- TOUR SQUAD

#AFCTour2018

CECH MUSTAFI GUENDOUZI oziL
LENO SOKRATIS NELSON IWOBI
MARTINEZ MAVROPANOS SMITHROWE = NKETIAH
BELLERIN OSEI-TUTU WILLOCK PEREZ
KOLASINAC ELNENY RAMSEY LACAZETTE
CHAMBERS MAITLAND-NILES MKHITARYAN AUBAMEYANG
HOLDING

Há vários utilitários em diferentes linguagens de programação que se conectam à funcionalidade do tesseract, mas é importante conhecer a ferramenta subjacente! O tesseract é uma ferramenta incrível que o senhor deve aproveitar se precisar de um utilitário de código aberto para detectar texto em uma imagem!

  • Entrevista com um desenvolvedor da Web do Pornhub
  • Escreva consultas de mídia simples, elegantes e fáceis de manter com Sass
  • Atribuir IDs de âncora usando o MooTools 1.2

    Um dos meus usos favoritos da biblioteca MooTools JavaScript é o plug-in SmoothScroll. Eu o utilizo em meu site, no site do meu empregador e em muitos sites de clientes. A melhor parte do plug-in é que ele é muito fácil de implementar. Recentemente, eu corri…

  • MooTools Text Flipping

    Há muitas e muitas técnicas JavaScript inúteis, mas divertidas, por aí. Essa é mais uma delas… Uma piada popular do Dia da Mentira da qual rapidamente me cansei foi a de sites que transformavam seus textos de cabeça para baixo. Encontrei um Plug-in jQuery de Paul…