Qual modelo de IA entrega mais inteligência por dólar gasto? Ranking calculado por ELO ÷ preço/1M tokens — modelos com alta qualidade e baixo custo de API ficam no topo. 30 modelos ranqueados.
Fórmula: (ELO − 1300) ÷ preço_input/1M tokens. Atualizado: maio de 2026.
30 modelos com ELO e preço disponíveis.
| # | Modelo | Empresa | ELO | $/1M in | $/1M out | tok/s | Score C/B |
|---|---|---|---|---|---|---|---|
| 1 | Google: Gemma 4 26B A4B | 1,439 | $$0.06 | $$0.33 | — | 2,317 | |
| 2 | Qwen: Qwen3 235B A22B Instruct 2507 | Alibaba | 1,423 | $$0.07 | $$0.10 | — | 1,732 |
| 3 | Google: Gemma 4 31B | 1,451 | $$0.13 | $$0.38 | — | 1,162 | |
| 4 | DeepSeek: DeepSeek V3.1 | DeepSeek | 1,417 | $$0.15 | $$0.75 | — | 780 |
| 5 | MiniMax: MiniMax M2.5 | MiniMax | 1,400 | $$0.15 | $$1.20 | — | 667 |
| 6 | Qwen: Qwen3 VL 235B A22B Instruct | Alibaba | 1,416 | $$0.20 | $$0.88 | — | 580 |
| 7 | Google: Gemini 3.1 Flash Lite Preview | 1,439 | $$0.25 | $$1.50 | — | 556 | |
| 8 | DeepSeek: DeepSeek V3.2 | DeepSeek | 1,422 | $$0.25 | $$0.38 | — | 484 |
| 9 | DeepSeek: DeepSeek V3.2 Exp | DeepSeek | 1,423 | $$0.27 | $$0.41 | — | 456 |
| 10 | DeepSeek: DeepSeek V3.1 Terminus | DeepSeek | 1,416 | $$0.27 | $$0.95 | — | 430 |
| 11 | Google: Gemini 2.5 Flash | 1,405 | $$0.30 | $$2.50 | 183 | 350 | |
| 12 | MiniMax: MiniMax M2.7 | MiniMax | 1,403 | $$0.30 | $$1.20 | — | 343 |
| 13 | MoonshotAI: Kimi K2.5 | MoonshotAI | 1,450 | $$0.44 | $$2.00 | — | 341 |
| 14 | Google: Gemini 3 Flash Preview | 1,462 | $$0.50 | $$3.00 | — | 324 | |
| 15 | MoonshotAI: Kimi K2 0905 | MoonshotAI | 1,418 | $$0.40 | $$2.00 | — | 295 |
| 16 | Mistral: Mistral Medium 3 | Mistral AI | 1,410 | $$0.40 | $$2.00 | 47 | 275 |
| 17 | OpenAI: GPT-5.4 Mini | OpenAI | 1,458 | $$0.75 | $$4.50 | — | 211 |
| 18 | MoonshotAI: Kimi K2 0711 | MoonshotAI | 1,417 | $$0.57 | $$2.30 | — | 205 |
| 19 | MoonshotAI: Kimi K2.6 | MoonshotAI | 1,430 | $$0.75 | $$3.50 | — | 173 |
| 20 | DeepSeek: R1 | DeepSeek | 1,398 | $$0.70 | $$2.50 | — | 140 |
| 21 | Google: Gemini 2.5 Pro | 1,448 | $$1.25 | $$10.00 | — | 118 | |
| 22 | OpenAI: GPT-5.1 | OpenAI | 1,439 | $$1.25 | $$10.00 | — | 111 |
| 23 | Anthropic: Claude Haiku 4.5 | Anthropic | 1,408 | $$1.00 | $$5.00 | — | 108 |
| 24 | OpenAI: GPT-5.2 Chat | OpenAI | 1,477 | $$1.75 | $$14.00 | — | 101 |
| 25 | Google: Gemini 3.1 Pro Preview | 1,493 | $$2.00 | $$12.00 | — | 97 | |
| 26 | OpenAI: GPT-5.3 Chat | OpenAI | 1,451 | $$1.75 | $$14.00 | — | 86 |
| 27 | OpenAI: GPT-5.2-Codex | OpenAI | 1,439 | $$1.75 | $$14.00 | — | 79 |
| 28 | Mistral Large | Mistral AI | 1,415 | $$2.00 | $$6.00 | — | 58 |
| 29 | OpenAI: GPT-4.1 | OpenAI | 1,413 | $$2.00 | $$8.00 | 101 | 57 |
| 30 | Anthropic: Claude Sonnet 4.6 | Anthropic | 1,462 | $$3.00 | $$15.00 | — | 54 |
Score C/B = (ELO − 1300) ÷ preço_input/1M. Maior = melhor custo-benefício.Ver metodologia →
O ranking de custo-benefício não é um substituto para o ranking de qualidade absoluta. Um modelo no topo desta lista não é necessariamente “melhor” — é o que entrega mais qualidade relativa ao seu custo. Para projetos onde a qualidade máxima é crítica (diagnóstico médico, análise jurídica, código de produção), use oranking por inteligência absoluta.
Custo-benefício deve ser o critério dominante quando: (1) volume de tokens é alto (chatbots de WhatsApp com centenas de mensagens/dia); (2) a tarefa tem critérios de qualidade definidos e mensuráveis (respostas corretas em FAQs, extração de dados estruturados); (3) você tem múltiplos modelos passando no critério de qualidade mínimo. Nesses casos, o modelo mais barato que passa é a escolha correta — pagar a mais não adiciona valor.
O preço por token é só parte do custo total. Inclua também: (1) custo de latência — modelos mais baratos tendem a ser mais lentos, impactando a experiência em tempo real; (2) custo de prompt engineering — modelos com menos capacidade requerem prompts mais elaborados; (3) custo de erros — um modelo barato que erra 10% mais pode custar mais em revisão humana; (4) custo de integração — APIs com menor documentação aumentam o custo de desenvolvimento.
(ELO − 1300) ÷ preço_input/1M tokens. ELO mede qualidade relativa; subtrair 1300 remove o baseline; dividir pelo preço normaliza por custo. Maior score = mais inteligência por dólar.
Google: Gemma 4 26B A4B lidera em 2026 com ELO 1,439 por $0.06/1M tokens. GPT-4o-mini, Claude Haiku e Gemini Flash geralmente ficam no topo desta lista.
Depende da tarefa. Para volume alto e tarefas simples, modelos baratos entregam 80% da qualidade por 10% do custo. Para análise complexa, o ganho de qualidade pode justificar o preço maior.