Benchmark de IA 2026Compare +600 Modelos em Português

Análise independente em português de +600 modelos de IA das principais empresas. ELO do Chatbot Arena, Intelligence Index, preços em reais e especificações. Atualizado diariamente.

Por Luis Fernando Roquette • Última atualização: 03 de julho de 2026

500 modelos • 405 com benchmarks • 377 com Score AA • Sincronizado: 03 de julho de 2026

Qual o melhor LLM hoje?

Mais Inteligente

Score AA — Artificial Analysis · atualizado a cada 6h

Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)

59.9

Claude Opus 4.8 (Adaptive Reasoning, Max Effort)

55.7

Claude Opus 4.7

53.5

Claude Sonnet 5

53.4

Gemini 3.5 Flash

50.2

Mais veloz?

Mais Rápidos

Output tokens/segundo · maior é melhor

Mercury 2

969 tok/s

HyperNova 60B 2605

352 tok/s

Gemini 3.1 Flash Lite Preview

314 tok/s

NVIDIA Nemotron 3 Super 120B A12B (Reasoning)

249 tok/s

Gemini 2.5 Flash Preview (Reasoning)

222 tok/s

Melhor custo-benefício?

Mais Entrega por Menos

Score AA por US$ (preço blended 3:1)

$0.18AA 40.3

$0.52AA 44.4

$0.54AA 44.3

$1.00AA 41.0

$1.71AA 42.8

🏆 Ranking por Inteligência

Score AA — Artificial Analysis · top 20

🥇Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)Anthropic

59.9 🥈Claude Opus 4.8 (Adaptive Reasoning, Max Effort)Anthropic

55.7 🥉Claude Opus 4.7Anthropic

53.5 4Claude Sonnet 5anthropic

53.4 5Gemini 3.5 FlashGoogle

50.2 6Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)Anthropic

47.2 7Gemini 3.1google

46.5 8Gemini 3.1 Pro PreviewGoogle

46.5 9Qwen3.7 MaxAlibaba

46.0 10MiniMax-M3MiniMax

44.4

Score AA = AA Intelligence Index da Artificial Analysis. Atualizado a cada 6h. Clique em qualquer modelo para ver benchmarks detalhados.

500

Modelos

Empresas

377

Com Score AA

Reasoning

Open Source

115

Multimodal

Ranking por Score AA

Classificação baseada no AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas.

#	Modelo	Empresa	ELO	Intel.	Input $/1M	Context	Lançamento	Tipo
·	Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)Novo Anthropic	Anthropic	—	59.9	$10.00	1.0M tokens	jun. de 2026
·	Claude Opus 4.8 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	55.7	$5.00	1.0M tokens	mai. de 2026
·	Claude Opus 4.7 Anthropic	Anthropic	—	53.5	$5.00	1.0M tokens	abr. de 2026	MMR
·	Claude Sonnet 5Novo anthropic	anthropic	—	53.4	$3.00	1.0M tokens	jun. de 2026
·	Gemini 3.5 Flash Google	Google	—	50.2	$1.50	1.0M tokens	mai. de 2026	MM
·	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	47.2	$3.00	—	fev. de 2026
·	Gemini 3.1 google	google	—	46.5	—	—	—
·	Gemini 3.1 Pro Preview Google	Google	—	46.5	$2.00	1.0M tokens	fev. de 2026	MMR
·	Qwen3.7 Max Alibaba	Alibaba	—	46.0	$2.50	—	mai. de 2026
·	MiniMax-M3 MiniMax	MiniMax	—	44.4	$0.30	1.0M tokens	jun. de 2026
·	DeepSeek V4 Pro DeepSeek	DeepSeek	—	44.3	$0.43	1.0M tokens	abr. de 2026	OS
·	GPT-5.3-Codex OpenAI	OpenAI	—	44.3	$1.75	400K tokens	fev. de 2026	MMR
·	Claude Opus 4.6 (Adaptive Reasoning, Max Effort) Anthropic	Anthropic	—	43.7	$5.00	—	fev. de 2026
·	Muse Spark Meta	Meta	—	43.1	—	—	abr. de 2026
·	Kimi K2.6 MoonshotAI	MoonshotAI	—	42.8	$0.95	262K tokens	abr. de 2026	OSMMR
·	Claude Opus 4.7 (Fast) Anthropic	Anthropic	—	42.7	$30.00	1.0M tokens	mai. de 2026	MM
·	GPT-5.2 OpenAI	OpenAI	—	42.2	$1.75	400K tokens	dez. de 2025	MMR
·	Kimi K2.7 CodeNovo Kimi	Kimi	—	41.9	$0.95	—	jun. de 2026
·	Nex-N2-Pro Nex AGI	Nex AGI	—	41.0	$0.50	262K tokens	jun. de 2026
·	Claude Opus 4.5 (Reasoning) Anthropic	Anthropic	—	40.8	$5.00	—	nov. de 2025

Preços em USD por 1M tokens de input. Estimativa em BRL: câmbio de mercado + IOF de 6,38%. Consulte metodologia para detalhes.

OS = Open Source • MM = Multimodal • R = Reasoning •Score AA: Artificial Analysis • Intel.: Artificial Analysis •Preços: OpenRouter •Ver metodologia completa

⚡ Velocidade de Inferência

Tokens por segundo — top 15

1Mercury 2Inception

969 tok/sTTFT 3046ms

2LFM2.5-VL-1.6BLiquid AI

454 tok/sTTFT 1033ms

3Granite 3.3 8B (Non-reasoning)IBM

406 tok/sTTFT 21075ms

4Granite 4.0 H SmallIBM

380 tok/sTTFT 8689ms

5HyperNova 60B 2605Multiverse Computing

352 tok/sTTFT 553ms

6LFM2.5-8B-A1BLiquid AI

343 tok/sTTFT 1583ms

7Gemini 3.1 Flash Lite PreviewGoogle

314 tok/sTTFT 4584ms

8Llama 3.1 Nemotron 70B InstructNVIDIA

301 tok/sTTFT 4109ms

Velocidade em tokens/segundo medida via API. TTFT = Time to First Token (latência até a primeira resposta).

Modelos por Empresa

AI21 Labs (7) • Top AA: 5.3

Adobe (1)

AionLabs (3)

AlfredPros (1)

Alibaba (65) • Top AA: 46.0

Allen Institute for AI (8) • Top AA: 8.3

AllenAI (2) • Top AA: 6.5

Amazon (13) • Top AA: 21.8

Anthropic (38) • Top AA: 59.9

Arcee AI (7) • Top AA: 24.5

Baidu (5) • Top AA: 21.9

Black Forest Labs (1)

ByteDance (1)

ByteDance Seed (4) • Top AA: 26.0

China Mobile (3) • Top AA: 28.4

Cognition (1)

Cohere (7) • Top AA: 22.5

Databricks (1) • Top AA: 3.0

Deep Cogito (2)

DeepSeek (25) • Top AA: 44.3

ElevenLabs (2)

EssentialAI (1)

Goliath 120B (1)

Google (68) • Top AA: 50.2

IBM (10) • Top AA: 8.9

Ideogram (1)

Inception (1) • Top AA: 25.3

Inclusion AI (2) • Top AA: 26.1

InclusionAI (6) • Top AA: 30.6

Inflection (2)

Kimi (3) • Top AA: 41.9

Kling AI (1)

Korea Telecom (2) • Top AA: 16.4

Kuaishou (1)

KwaiKAT (1) • Top AA: 34.6

Kwaipilot (1) • Top AA: 35.4

LG AI (2) • Top AA: 24.7

LG AI Research (3) • Top AA: 10.6

Liquid AI (8) • Top AA: 8.3

LiquidAI (1) • Top AA: 4.9

LongCat (1) • Top AA: 17.2

Luma AI (2)

MBZUAI Institute of Foundation Models (3) • Top AA: 17.3

Magnum v4 72B (1)

Mancer (1)

Meta (19) • Top AA: 43.1 Microsoft (5) • Top AA: 4.9

Midjourney (1)

MiniMax (14) • Top AA: 44.4

Mistral (21) • Top AA: 19.2

Mistral AI (23) • Top AA: 29.9

Moonshot AI (1) • Top AA: 19.4

MoonshotAI (4) • Top AA: 42.8

Morph (2)

Motif Technologies (1) • Top AA: 12.8

Multiverse Computing (1) • Top AA: 22.1

MythoMax 13B (1)

NVIDIA (18) • Top AA: 37.8

Nanbeige (1) • Top AA: 10.1

Naver (1) • Top AA: 17.0

Nex AGI (2) • Top AA: 41.0

Nous (4)

Nous Research (7) • Top AA: 10.0

NousResearch (1)

OpenAI (48) • Top AA: 44.3

anthropic (1) • Top AA: 53.4

deepseek (1) • Top AA: 40.8

google (2) • Top AA: 46.5

openai (1)

Guia de Benchmarks de IA em 2026

Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) é o modelo de IA mais inteligente em 2026 com Score AA de 59.9, segundo o AA Intelligence Index da Artificial Analysis — score composto atualizado a cada 6 horas. O mercado de modelos de linguagem (LLMs) em 2026 é dominado por uma corrida entre OpenAI, Anthropic, Google DeepMind, Meta AI e labs como DeepSeek, Alibaba (Qwen) e xAI (Grok). Com mais de 500 modelos disponíveis via API, escolher o modelo certo para cada caso de uso tornou-se uma decisão complexa que envolve qualidade (medida por benchmarks como AA Intelligence Index, MMLU e SWE-bench), preço por token, velocidade de inferência, contexto e capacidades multimodais.

Score AA — Artificial Analysis Intelligence Index↓

O AA Intelligence Index da Artificial Analysis é um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado a cada 6 horas com dados da API pública da Artificial Analysis. Atualmente, Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) lidera com Score AA de 59.9.

Intelligence Index (Artificial Analysis)↓

O Intelligence Index da Artificial Analysis é um score composto (0-100) que combina 10 avaliações diferentes: GDPval-AA, Terminal-Bench Hard, SciCode, AIME 2025, AA-LCR, IFBench, Humanity’s Last Exam, GPQA Diamond, e outros. É considerado mais robusto que benchmarks individuais por capturar múltiplas dimensões de inteligência.

Preços e Custo-Benefício↓

Os preços variam dramaticamente: de US$ 0.01 por milhão de tokens (modelos leves) até US$ 60+ por milhão (modelos frontier como Claude Opus e GPT-5 Pro). O melhor custo-benefício atual é Qwen3.5 4B (Non-reasoning) com Score AA 20.1 por apenas $0.03/1M tokens. Para aplicações de alto volume como chatbots de WhatsApp, a diferença pode representar milhares de reais por mês.

Context Window: Por Que Importa↓

O context window determina quanto texto o modelo pode processar de uma vez. Llama 4 Scout lidera com 10.0M tokens. Para aplicações que envolvem documentos longos, contratos ou análise de código, o context window é frequentemente mais importante que o benchmark de raciocínio.

Open Source vs Proprietário↓

Dos 500 modelos catalogados, 92 são open source (18%). Modelos open source como Llama 4 (Meta), Qwen 3 (Alibaba) e DeepSeek permitem deploy on-premises, personalização via fine-tuning e controle total sobre os dados. Modelos proprietários oferecem performance superior em tarefas complexas, mas dependem de APIs cloud com custos recorrentes.

Benchmark em Português Brasileiro↓

A maioria dos benchmarks internacionais testa modelos apenas em inglês. O SWEN.AI mantém um benchmark proprietário em português brasileiro com 10 modelos testados em ENEM, OAB, SAC, Tradução e Raciocínio Lógico. Ver resultados completos do Benchmark PT-BR →

Perguntas Frequentes

Qual é o melhor modelo de IA em 2026?↓

Pelo AA Intelligence Index da Artificial Analysis, Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback) lidera com Score AA de 59.9. Porém, o "melhor" depende do caso de uso: para custo-benefício, Qwen3.5 4B (Non-reasoning) oferece excelente qualidade por preço baixo.

O que é o Score AA?↓

O Score AA é o AA Intelligence Index da Artificial Analysis — um score composto (0-100) que combina múltiplos benchmarks de raciocínio, código, matemática e ciência. É atualizado automaticamente a cada 6 horas com dados da API pública da Artificial Analysis.

Qual o modelo de IA mais barato?↓

Entre modelos com boa qualidade (Score AA > 40), DeepSeek V4 Flash é o mais acessível a $0.14/1M tokens de input.

Os benchmarks são confiáveis?↓

Benchmarks são indicativos, não definitivos. O AA Intelligence Index é considerado robusto por combinar múltiplas avaliações padronizadas. Benchmarks individuais (MMLU, GPQA) podem sofrer contaminação. Recomendamos testar no seu caso de uso específico.

Qual modelo funciona melhor em português?↓

Claude (Anthropic) e Gemini (Google) tendem a ter melhor performance em português brasileiro. O SWEN.AI mantém um benchmark proprietário em PT-BR com 10 modelos testados em ENEM, OAB e SAC — veja os resultados em /benchmark/ptbr.

Explorar Outros Hubs

Ferramentas de IA Modelos Comparativos Guias Glossário

Explorar mais

Ferramentas de IA GitHub Radar ChatGPT vs Claude vs Gemini Melhor IA para Programação Melhor IA para Marketing Guias