Glossário de IA

Whisper

Letra W

Definição

Whisper é um modelo open source de reconhecimento automático de voz (ASR) desenvolvido pela OpenAI e lançado em 2022. É treinado em 680.000 horas de áudio multilíngue coletado da internet, o que lhe confere suporte a mais de 90 idiomas — incluindo português brasileiro com qualidade excepcional. O Whisper realiza transcrição de fala para texto e pode também traduzir fala de outros idiomas diretamente para inglês. Sua arquitetura é baseada em Transformers encoder-decoder, semelhante a modelos de tradução de texto. Por ser open source, pode ser rodado localmente sem custo de API, o que o torna ideal para processar áudio com dados sensíveis (consultas médicas, reuniões corporativas confidenciais). Existem versões de diferentes tamanhos — de tiny a large — com tradeoff entre velocidade e precisão. Implementações otimizadas como o faster-whisper (baseado em CTranslate2) alcançam transcrição em tempo real mesmo em hardware modesto. No Brasil, o Whisper é amplamente usado para legendar vídeos, transcrever podcasts, automatizar atas de reunião e em sistemas de atendimento telefônico inteligente. É considerado o melhor modelo gratuito disponível para português brasileiro.

Termos Relacionados

OpenAI

Ver também

← Glossário completo Benchmark de IA Modelos de IA Ferramentas Guias

Navegar por letra:

A B C D E F G H I L M N O P Q R S T U V W Z