Análise independente de IA
O ranking das melhores IAs de 2026 e o mais completo em português, com 569 LLMs ativos comparados em 13 benchmarks oficiais (GPQA, MMLU-Pro, AIME, HLE, LiveCodeBench, SciCode, IFBench, AA-LCR, Terminal-Bench e Tau²) — ou seja, raciocínio, matemática, programação, velocidade e custo — além de métricas de latência e preço por token. Use este ranking para encontrar as melhores IAs de 2026 por categoria.
Luis Fernando Roquette · SWEN.AI · metodologia descrita ao fim da página · última atualização: 24 de mai. de 2026
Qual usar agora
Top 10 · AA Intelligence Index
Top 10 · Output tokens/segundo
Top 10 · USD / 1M tokens input
Ranking pelo score composto da Artificial Analysis (0–100). Top 30 modelos do benchmark.
Progressão diária do Intelligence Index para os top 8 modelos.
Ranking por score composto de benchmarks de programação. Top 20 modelos.
Problemas competitivos de programação. Top 20.
Ranking por score composto de benchmarks matemáticos. Top 20 modelos.
American Invitational Mathematics Examination. Top 20.
500 problemas de matemática competitiva. Top 20.
Massive Multitask Language Understanding Pro. Top 20.
Graduate-level Physics, Chem, Bio questions. Top 20.
Benchmark mais difícil, focado em raciocínio. Top 20.
Ranking por velocidade de geração (tokens/s). Top 20 modelos.
Latência inicial. Menor = melhor. Top 20.
Tempo até o primeiro token de resposta (TTFA). Inclui reasoning chain. Menor = melhor. Top 20.
Tokens que o modelo pode processar. Top 15.
Ranking dos 25 modelos mais baratos em USD/1M tokens de input. Benchmark de custo-benefício.
Ranking por preferência humana em comparações blind side-by-side.
Geração de código científico (física, química, biologia). Top 20.
Aderência a instruções complexas e restritas. Top 20.
Raciocínio em contexto longo (entender e usar info em 100K+ tokens). Top 20.
Execução de tarefas agênticas em terminal Linux real. Top 20.
Uso de ferramentas em ambientes simulados (airline, retail, telecom). Top 20.
Nota subjetiva (0–10) baseada em qualidade visual, física, duração e custo. Avaliação editorial SWEN.AI.
De acordo com o AA Intelligence Index — índice composto que agrega GPQA Diamond, MMLU-Pro, AIME, HLE e LiveCodeBench — GPT-5.5 (OpenAI) lidera o ranking em 2026 com score 60.2/100, seguido por Claude Opus 4.7 (57.3) e Gemini 3.1 Pro Preview (57.2). O Intelligence Index é calculado pela Artificial Analysis com base em avaliações independentes e reflete capacidade técnica real em raciocínio, matemática, ciências e programação. É diferente do ELO do LMArena, que mede preferência humana em conversas abertas. Para tarefas que exigem raciocínio profundo, código ou análise científica, os modelos no topo do Intelligence Index costumam ter melhor desempenho. Para conversas cotidianas e criatividade, o ELO é um guia mais representativo. Consulte o ranking atualizado para posições em tempo real.
O ELO vem do LMArena (Chatbot Arena), onde usuários reais comparam respostas de dois modelos anonimizados e escolhem o melhor. É uma medida de preferência humana subjetiva — reflete naturalidade, utilidade e qualidade percebida em conversas do dia a dia. Um modelo com ELO alto pode não ser o mais preciso em tarefas técnicas, mas é o que as pessoas preferem usar. O AA Intelligence Index, calculado pela Artificial Analysis, é objetivo: agrega resultados de benchmarks padronizados como GPQA Diamond (perguntas de nível doutorado), MMLU-Pro (conhecimento acadêmico amplo), AIME (matemática olímpica), HLE (fronteira do conhecimento científico) e LiveCodeBench (programação). Quanto maior o score, mais o modelo demonstrou capacidade técnica em avaliações controladas. Use o ELO para escolher um assistente conversacional geral; use o Intelligence Index para selecionar modelos em pipelines técnicos ou científicos.
Para programação, os benchmarks mais relevantes são o LiveCodeBench — desafios de código avaliados com execução real — e o AA Coding Index. Em 2026, GPT-5.5 lidera o ranking de código (59.1/100), com GPT-5.4 em segundo e GPT-5.4 Pro em terceiro. A escolha ideal depende do contexto: para geração de código via API, custo por token e janela de contexto importam tanto quanto a precisão. Para desenvolvimento interativo no IDE (Cursor, VS Code), a latência pesa muito. Para projetos com múltiplos arquivos, janelas acima de 100K tokens são necessárias. Consulte a tabela completa para comparar modelos de código por score, preço e velocidade.
O ranking SWEN.AI é atualizado de forma automática e contínua a partir de três fontes principais. Os dados de benchmark da Artificial Analysis (Intelligence Index, Coding Index, Math Index, velocidade de inferência) são sincronizados a cada 6 horas via integração automatizada. Os preços de API — input e output por 1M tokens — são atualizados diariamente via OpenRouter, refletindo variações de providers em tempo quase real. O ELO do LMArena (Chatbot Arena) é sincronizado semanalmente. A página revalida o cache a cada 5 minutos via ISR (Incremental Static Regeneration): quando um novo modelo entra ou um score muda, o ranking atualiza em até 5 minutos sem rebuild manual. A última sincronização ocorreu em 24 de mai. de 2026.
A família Gemini 3 do Google não segue numeração sequencial linear. O Google lançou versões Gemini 3 Flash, Gemini 3.1 Pro/Flash Lite e Gemini 3.5 Flash — sem publicar um "Gemini 3.2" oficial. Cada número indica uma geração técnica distinta: 3.1 trouxe melhorias de raciocínio; 3.5 ampliou capacidade com custo intermediário. O Gemini 3.1 Pro custa US$ 2,00/1M tokens (~R$ 11,92/1M) e tem janela de contexto de 1 milhão de tokens, posicionando-se como alternativa ao GPT-4o e Claude 3.7. Veja o comparativo completo da família Gemini 3 com preços em BRL →
“Gemini Spark” é um nome que circula online mas que o Google nunca lançou oficialmente como produto. O termo apareceu em APK teardowns associado a uma possível versão ultra-leve do Gemini para dispositivos de borda. Os modelos leves confirmados do Google são: Gemini Nano (on-device, Pixel 8 Pro/Pixel 9) e Gemini Flash(via API, US$ 0,075/1M tokens). Qualquer previsão sobre “Gemini Spark” é especulação até confirmação oficial. Entenda o que se sabe sobre o Gemini Spark →
Artificial Analysis — fornece Intelligence Index, Coding Index, Math Index e benchmarks individuais (GPQA Diamond, MMLU-Pro, HLE, AIME, MATH-500, LiveCodeBench). Sincronizado a cada 6h via cron automatizado.
LMArena — Elo de preferência humana em comparações blind side-by-side. Atualizado semanalmente.
OpenRouter — preços de provider em USD por 1M tokens. Atualizado diariamente.
Snapshots históricos — captura diária dos scores às 06:30 UTC para alimentar gráficos de evolução temporal. Iniciada em 24 de mai. de 2026.
Benchmarks são indicativos — sempre teste no seu caso de uso específico antes de decidir. Performance varia por provedor de inferência (mesmo modelo, latência diferente).