Whisper é um modelo open source de reconhecimento automático de voz (ASR) desenvolvido pela OpenAI e lançado em 2022. É treinado em 680.000 horas de áudio multilíngue coletado da internet, o que lhe confere suporte a mais de 90 idiomas — incluindo português brasileiro com qualidade excepcional. O Whisper realiza transcrição de fala para texto e pode também traduzir fala de outros idiomas diretamente para inglês. Sua arquitetura é baseada em Transformers encoder-decoder, semelhante a modelos de tradução de texto. Por ser open source, pode ser rodado localmente sem custo de API, o que o torna ideal para processar áudio com dados sensíveis (consultas médicas, reuniões corporativas confidenciais). Existem versões de diferentes tamanhos — de tiny a large — com tradeoff entre velocidade e precisão. Implementações otimizadas como o faster-whisper (baseado em CTranslate2) alcançam transcrição em tempo real mesmo em hardware modesto. No Brasil, o Whisper é amplamente usado para legendar vídeos, transcrever podcasts, automatizar atas de reunião e em sistemas de atendimento telefônico inteligente. É considerado o melhor modelo gratuito disponível para português brasileiro.
Navegar por letra: