Qual modelo de IA entrega mais inteligência por dólar gasto? Ranking calculado por AA Intelligence Index ÷ preço/1M tokens — modelos com alta qualidade e baixo custo de API ficam no topo. 30 modelos ranqueados.
Fórmula: (AA Intelligence Index × 10) ÷ preço_input/1M tokens. Fonte: Artificial Analysis, atualizado a cada 6h.
30 modelos com AA Intelligence Index e preço disponíveis.
| # | Modelo | Empresa | Score AA | $/1M in | $/1M out | tok/s | Score C/B |
|---|---|---|---|---|---|---|---|
| 1 | Qwen3.5 4B (Non-reasoning) | 20.1 | $$0.03 | $$0.15 | 38 | 6,700 | |
| 2 | HyperNova 60B 2605 | Multiverse Computing | 22.1 | $$0.04 | $$0.14 | 414 | 5,525 |
| 3 | Qwen3.5 4B (Reasoning) | 16.0 | $$0.03 | $$0.15 | 39 | 5,333 | |
| 4 | Qwen3.5 2B (Reasoning) | 10.2 | $$0.02 | $$0.10 | 43 | 5,100 | |
| 5 | Qwen3.5 0.8B (Reasoning) | 5.0 | $$0.01 | $$0.05 | 45 | 5,000 | |
| 6 | Qwen3.5 0.8B (Non-reasoning) | 4.4 | $$0.01 | $$0.05 | 47 | 4,400 | |
| 7 | GPT-5 Nano | 19.9 | $$0.05 | $$0.40 | 172 | 3,980 | |
| 8 | MiMo-V2-Flash (Feb 2026) | Xiaomi | 33.2 | $$0.10 | $$0.30 | 78 | 3,320 |
| 9 | GLM-4.7-Flash (Reasoning) | 22.9 | $$0.07 | $$0.40 | 147 | 3,271 | |
| 10 | NVIDIA Nemotron 3 Nano 30B A3B (Reasoning) | 17.5 | $$0.06 | $$0.22 | 102 | 3,182 | |
| 11 | MiMo-V2-Flash (Reasoning) | Xiaomi | 31.2 | $$0.10 | $$0.30 | 75 | 3,120 |
| 12 | DeepSeek V4 Flash | 40.3 | $$0.14 | $$0.28 | 110 | 2,879 | |
| 13 | MiMo-V2.5 | Xiaomi | 40.1 | $$0.14 | $$0.28 | 69 | 2,864 |
| 14 | Sarvam 105B (high) | Sarvam | 11.9 | $$0.04 | $$0.17 | 117 | 2,833 |
| 15 | Hy3-preview (Reasoning) | Tencent | 33.6 | $$0.12 | $$0.43 | 115 | 2,732 |
| 16 | Step 3.5 Flash | StepFun | 26.0 | $$0.10 | $$0.30 | 202 | 2,600 |
| 17 | Step 3.5 Flash | StepFun | 25.5 | $$0.10 | $$0.30 | 189 | 2,550 |
| 18 | Sarvam 30B | Sarvam | 6.6 | $$0.03 | $$0.11 | 188 | 2,538 |
| 19 | gpt-oss-20b | 14.9 | $$0.06 | $$0.20 | 254 | 2,483 | |
| 20 | Gemma 4 12B (Reasoning) | 22.0 | $$0.10 | $$0.30 | 162 | 2,200 | |
| 21 | NVIDIA Nemotron Nano 9B V2 (Reasoning) | 8.8 | $$0.04 | $$0.16 | 98 | 2,200 | |
| 22 | Qwen3.5 9B (Reasoning) | 20.3 | $$0.10 | $$0.15 | 67 | 2,030 | |
| 23 | Nemotron 3 Nano Omni 30B A3B Reasoning | 14.9 | $$0.07 | $$0.30 | 295 | 1,987 | |
| 24 | Gemma 4 26B A4B | 25.7 | $$0.13 | $$0.40 | 43 | 1,977 | |
| 25 | Ling 2.6 Flash | Inclusion AI | 19.3 | $$0.10 | $$0.30 | — | 1,930 |
| 26 | GPT-5.4 Nano | 38.2 | $$0.20 | $$1.25 | 161 | 1,910 | |
| 27 | Qwen3.5 Omni Flash | 19.0 | $$0.10 | $$0.80 | 270 | 1,900 | |
| 28 | LFM2-24B-A2B | LiquidAI | 4.9 | $$0.03 | $$0.12 | 125 | 1,633 |
| 29 | GPT-5 nano (minimal) | 8.0 | $$0.05 | $$0.40 | 176 | 1,600 | |
| 30 | gpt-oss-120b | 23.8 | $$0.15 | $$0.60 | 361 | 1,587 |
Score C/B = (AA Intelligence Index × 10) ÷ preço_input/1M. Maior = melhor custo-benefício.Ver metodologia →
O ranking de custo-benefício não é um substituto para o ranking de qualidade absoluta. Um modelo no topo desta lista não é necessariamente “melhor” — é o que entrega mais qualidade relativa ao seu custo. Para projetos onde a qualidade máxima é crítica (diagnóstico médico, análise jurídica, código de produção), use oranking por inteligência absoluta.
Custo-benefício deve ser o critério dominante quando: (1) volume de tokens é alto (chatbots de WhatsApp com centenas de mensagens/dia); (2) a tarefa tem critérios de qualidade definidos e mensuráveis (respostas corretas em FAQs, extração de dados estruturados); (3) você tem múltiplos modelos passando no critério de qualidade mínimo. Nesses casos, o modelo mais barato que passa é a escolha correta — pagar a mais não adiciona valor.
O preço por token é só parte do custo total. Inclua também: (1) custo de latência — modelos mais baratos tendem a ser mais lentos, impactando a experiência em tempo real; (2) custo de prompt engineering — modelos com menos capacidade requerem prompts mais elaborados; (3) custo de erros — um modelo barato que erra 10% mais pode custar mais em revisão humana; (4) custo de integração — APIs com menor documentação aumentam o custo de desenvolvimento.
(AA Intelligence Index × 10) ÷ preço_input/1M tokens. O Intelligence Index mede raciocínio + código + contexto de 0 a 100 (Artificial Analysis, atualizado a cada 6h); multiplicar por 10 escala a métrica; dividir pelo preço normaliza por custo. Maior score = mais inteligência por dólar.
Qwen3.5 4B (Non-reasoning) lidera em 2026 com Score AA 20.1 por $0.03/1M tokens. Modelos com alto AA Intelligence Index e baixo preço ficam no topo desta lista.
Depende da tarefa. Para volume alto e tarefas simples, modelos baratos entregam 80% da qualidade por 10% do custo. Para análise complexa, o ganho de qualidade pode justificar o preço maior.