Análise independente em português de +600 modelos de IA das principais empresas. ELO do Chatbot Arena, Intelligence Index, preços em reais e especificações. Atualizado diariamente.
Por Luis Fernando Roquette • Última atualização: 03 de julho de 2026
500 modelos • 405 com benchmarks • 377 com Score AA • Sincronizado: 03 de julho de 2026
Qual o melhor LLM hoje?
Mais Inteligente
Score AA — Artificial Analysis · atualizado a cada 6h
Mais veloz?
Mais Rápidos
Output tokens/segundo · maior é melhor
Melhor custo-benefício?
Mais Entrega por Menos
Score AA por US$ (preço blended 3:1)
Score AA — Artificial Analysis · top 20
Score AA = AA Intelligence Index da Artificial Analysis. Atualizado a cada 6h. Clique em qualquer modelo para ver benchmarks detalhados.
500
Modelos
69
Empresas
377
Com Score AA
68
Reasoning
92
Open Source
115
Multimodal
Classificação baseada no AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas.
| # | Modelo | ELO | Input $/1M |
|---|---|---|---|
| · | Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)Novo Anthropic | — | $10.00 |
| · | Claude Opus 4.8 (Adaptive Reasoning, Max Effort) Anthropic | — | $5.00 |
| · | Claude Opus 4.7 Anthropic | — | $5.00 |
| · | Claude Sonnet 5Novo anthropic | — | $3.00 |
| · | Gemini 3.5 Flash Google | — | $1.50 |
| · | Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic | — | $3.00 |
| · | Gemini 3.1 google | — | — |
| · | Gemini 3.1 Pro Preview Google | — | $2.00 |
| · | Qwen3.7 Max Alibaba | — | $2.50 |
| · | MiniMax-M3 MiniMax | — | $0.30 |
| · | DeepSeek V4 Pro DeepSeek | — | $0.43 |
| · | GPT-5.3-Codex OpenAI | — | $1.75 |
| · | Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic | — | $5.00 |
| · | Muse Spark Meta | — | — |
| · | Kimi K2.6 MoonshotAI | — | $0.95 |
| · | Claude Opus 4.7 (Fast) Anthropic | — | $30.00 |
| · | GPT-5.2 OpenAI | — | $1.75 |
| · | Kimi K2.7 CodeNovo Kimi | — | $0.95 |
| · | Nex-N2-Pro Nex AGI | — | $0.50 |
| · | Claude Opus 4.5 (Reasoning) Anthropic | — | $5.00 |
Preços em USD por 1M tokens de input. Estimativa em BRL: câmbio de mercado + IOF de 6,38%. Consulte metodologia para detalhes.
OS = Open Source • MM = Multimodal • R = Reasoning •Score AA: Artificial Analysis • Intel.: Artificial Analysis •Preços: OpenRouter •Ver metodologia completa
Tokens por segundo — top 15
Velocidade em tokens/segundo medida via API. TTFT = Time to First Token (latência até a primeira resposta).
Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) é o modelo de IA mais inteligente em 2026 com Score AA de 59.9, segundo o AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas. O mercado de modelos de linguagem (LLMs) em 2026 é dominado por uma corrida entre OpenAI, Anthropic, Google DeepMind, Meta AI e labs como DeepSeek, Alibaba (Qwen) e xAI (Grok). Com mais de 500 modelos disponíveis via API, escolher o modelo certo para cada caso de uso tornou-se uma decisão complexa que envolve qualidade (medida por benchmarks como AA Intelligence Index, MMLU e SWE-bench), preço por token, velocidade de inferência, contexto e capacidades multimodais.
Pelo AA Intelligence Index da Artificial Analysis, Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) lidera com Score AA de 59.9. Porém, o "melhor" depende do caso de uso: para custo-benefício, Qwen3.5 4B (Non-reasoning) oferece excelente qualidade por preço baixo.
O Score AA é o AA Intelligence Index da Artificial Analysis — um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado automaticamente a cada 6 horas com dados da API pública da Artificial Analysis.
Entre modelos com boa qualidade (Score AA > 40), DeepSeek V4 Flash é o mais acessível a $0.14/1M tokens de input.
Benchmarks são indicativos, não definitivos. O AA Intelligence Index é considerado robusto por combinar múltiplas avaliações padronizadas. Benchmarks individuais (MMLU, GPQA) podem sofrer contaminação. Recomendamos testar no seu caso de uso específico.
Claude (Anthropic) e Gemini (Google) tendem a ter melhor performance em português brasileiro. O SWEN.AI mantém um benchmark proprietário em PT-BR com 10 modelos testados em ENEM, OAB e SAC — veja os resultados em /benchmark/ptbr.