Glossário de IA

Vision Transformer (ViT)

Letra V

Definição

Vision Transformer (ViT) é uma arquitetura de rede neural que aplica o mecanismo Transformer — originalmente criado para processar texto — ao processamento de imagens. Em vez de usar convoluções (como as CNNs tradicionais), o ViT divide a imagem em pequenos patches (pedaços), trata cada patch como um "token" e processa a sequência de patches com camadas de self-attention. O resultado é um modelo que captura relações globais na imagem desde as primeiras camadas, em vez de construir representações hierárquicas locais como as CNNs. O ViT foi introduzido pelo Google em 2020 e demonstrou que Transformers podiam superar CNNs em benchmarks de classificação de imagens quando treinados com dados suficientes. Hoje, o ViT é a base de modelos multimodais como o CLIP (OpenAI) e o Gemini, que conectam visão e linguagem. Para o mercado brasileiro, o ViT é relevante em aplicações de visão computacional: análise de documentos digitalizados, triagem médica por imagem e inspeção de qualidade industrial.

Termos Relacionados

Ver também

Navegar por letra: