Com que frequência o ranking de IA é atualizado?

O ranking SWEN.AI é atualizado automaticamente: dados da Artificial Analysis (Intelligence Index, velocidade) a cada 6 horas; preços de API via OpenRouter diariamente; ELO do LMArena semanalmente. A página revalida o cache a cada 5 minutos via ISR. Última sincronização: 24 de mai. de 2026.

Qual é a diferença entre Gemini 3, Gemini 3.1 e Gemini 3.5?

A família Gemini 3 do Google não segue numeração sequencial. O Google lançou Gemini 3 Flash, Gemini 3.1 Pro, Gemini 3.1 Flash Lite e Gemini 3.5 Flash — sem publicar um "Gemini 3.2" oficial. Cada número indica uma geração técnica distinta com melhorias arquiteturais significativas. O Gemini 3.1 Pro custa US$ 2,00/1M tokens (~R$ 11,92/1M) com 1 milhão de tokens de contexto, competindo com GPT-4o e Claude 3.7. O Gemini 3.1 Flash Lite é o mais econômico a US$ 0,25/1M (~R$ 1,50/1M). Consulte swen.ia.br/ranking para comparar todos os modelos Gemini com GPT-5, Claude 4 e Llama 4.

Análise independente de IA

Ranking de IA 2026

Name: Ranking de IA 2026
Creator: SWEN.AI
License: https://creativecommons.org/licenses/by/4.0/

O ranking das melhores IAs de 2026 e o mais completo em português, com 569 LLMs ativos comparados em 13 benchmarks oficiais (GPQA, MMLU-Pro, AIME, HLE, LiveCodeBench, SciCode, IFBench, AA-LCR, Terminal-Bench e Tau²) — ou seja, raciocínio, matemática, programação, velocidade e custo — além de métricas de latência e preço por token. Use este ranking para encontrar as melhores IAs de 2026 por categoria.

Luis Fernando Roquette · SWEN.AI · metodologia descrita ao fim da página · última atualização: 24 de mai. de 2026

Fonte: Artificial AnalysisVer como tabela →

Qual usar agora

Uso geral

GPT-5.5

OpenAI

Programação

GPT-5.5

OpenAI

Mais barato

JT-35B-Flash

China Mobile

Mais rápido

Mercury 2

Inception

Mais inteligentes

Top 10 · AA Intelligence Index

Gemini 3.1 Pro Preview

Mais rápidos

Top 10 · Output tokens/segundo

Qwen3.5 2B (Reasoning)

321 6

Granite 3.3 8B (Non-reasoning)

305 7

Nemotron 3 Nano Omni 30B A3B Reasoning

304 8

Gemini 3.1 Flash Lite Preview

296 9

Llama 3.1 Nemotron 70B Instruct

295 10

Gemini 2.5 Flash Lite

289

Mais baratos

Top 10 · USD / 1M tokens input

JT-35B-Flash

Grátis 2

Llama 3.3 Nemotron Super 49B v1 (Reasoning)

Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)

Grátis 6

Step 3.5 Flash

Grátis 7

Qwen3 4B 2507 (Reasoning)

EXAONE 4.0 32B (Reasoning)

Grátis

Intelligence Index

Ranking pelo score composto da Artificial Analysis (0–100). Top 30 modelos do benchmark.

Intelligence Index

GPT-5.5OpenAI

60.2 2

Claude Opus 4.7Anthropic

57.3 3

Gemini 3.1 Pro PreviewGoogle

Gemini 3.5 FlashGoogle

Claude Opus 4.6 (Adaptive Reasoning, Max Effort)Anthropic

52.9 13

Muse SparkMeta

52.2 14

Claude Opus 4.7 (Fast)Anthropic

51.8 15

Qwen3.6 Max PreviewAlibaba

51.8 16

Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)Anthropic

51.7 17

DeepSeek V4 ProDeepSeek

51.5 18

GLM-5.1 (Non-reasoning)Zhipu AI

GLM-5 (Reasoning)Zhipu AI

49.8 22

Claude Opus 4.5 (Reasoning)Anthropic

Grok 4.20 0309 (Reasoning)xAI

48.5 30

Gemini 3 Pro Preview (high)Google

48.4

Score combina GPQA Diamond, MMLU-Pro, AIME, SciCode, HLE, IFBench, Terminal-Bench e AA-LCR.Fonte: Artificial Analysis

Evolução da inteligência

Progressão diária do Intelligence Index para os top 8 modelos.

3 pontos · 30d janela

GPT-5.5· OpenAIClaude Opus 4.7· AnthropicGemini 3.1 Pro Preview· GoogleGPT-5.4· OpenAIGPT-5.4 Pro· OpenAIQwen3.7 Max· AlibabaQwen3.7 Max· AlibabaGemini 3.5 Flash· Google

Fonte: Artificial Analysis · SWEN snapshots diários

Código

Matemática

Conhecimento e raciocínio

Performance

Output tokens/segundo

Ranking por velocidade de geração (tokens/s). Top 20 modelos.

tokens/s

End-to-End Response Time

Tempo até o primeiro token de resposta (TTFA). Inclui reasoning chain. Menor = melhor. Top 20.

segundos

Para modelos com reasoning (o1, GPT-5, Claude Thinking, DeepSeek R1, etc.), o TTFA inclui o tempo de thinking — pode ser 10x maior que o TTFT.Fonte: Artificial Analysis

Janela de contexto

Tokens que o modelo pode processar. Top 15.

tokens

Llama 4 ScoutMeta

10.0M 2

Grok 4.20 Multi-AgentxAI

Gemini 3.1 Pro Preview Custom ToolsGoogle

1.0M 11

Gemini 3.1 Flash LiteGoogle

1.0M 12

Gemini 3.5 FlashGoogle

1.0M 13

Gemini 2.5 ProGoogle

1.0M 14

Gemini 2.5 Pro Preview 06-05Google

1.0M 15

Lyria 3 Pro PreviewGoogle

1.0M

Custo

Preço input — modelos mais baratos com qualidade

Ranking dos 25 modelos mais baratos em USD/1M tokens de input. Benchmark de custo-benefício.

USD / 1M input

JT-35B-FlashChina Mobile

Grátis 2

Llama 3.3 Nemotron Super 49B v1 (Reasoning)NVIDIA

Llama 3.1 Nemotron Nano 4B v1.1 (Reasoning)NVIDIA

Grátis 6

Step 3.5 FlashStepFun

Grátis 7

Qwen3 4B 2507 (Reasoning)Alibaba

Grátis 8

LFM 40BLiquid AI

Grátis 9

K2 Think V2MBZUAI Institute of Foundation Models

Grátis 10

EXAONE 4.0 32B (Reasoning)LG AI Research

Grátis 11

dm K 2.5 Pro PreviewKorea Telecom

Grátis 12

Jamba Reasoning 3BAI21 Labs

Nanbeige4.1-3BNanbeige

Grátis 17

Qwen3.5 9B (Reasoning)Alibaba

Grátis 18

Doubao Seed CodeByteDance

Grátis 19

Magistral Small 1Mistral

Grátis 20

EXAONE 4.0 32B (Non-reasoning)LG AI Research

Grátis 21

Motif-2-12.7B-ReasoningMotif Technologies

Grátis 22

Magistral Medium 1Mistral

Grátis 23

Tri-21B-ThinkTrillion Labs

Grátis 24

DeepSeek R1 Distill Qwen 1.5BDeepSeek

Grátis 25

Phi-4 Multimodal InstructMicrosoft

Grátis

Modelos com preço 0 são gratuitos / open-weights self-hosted.Fonte: OpenRouter · provider pricing

Preferência humana

LMArena Elo

Ranking por preferência humana em comparações blind side-by-side.

Elo

Claude Opus 4.6 (Fast)Anthropic

1497 2

GPT-5.2 ChatOpenAI

1477 3

Gemini 3 Flash PreviewGoogle

DeepSeek V3.2 ExpDeepSeek

1423 7

Kimi K2 0711MoonshotAI

1417 8

Claude Sonnet 4.5Anthropic

1399

Fonte: LMArena

Capabilities avançadas

Modelos de vídeo

Qualidade editorial — modelos de vídeo

Nota subjetiva (0–10) baseada em qualidade visual, física, duração e custo. Avaliação editorial SWEN.AI.

Nota /10

Runway Gen-3 AlphaRunway

8.9 4

Pika 2.1Pika Labs

8.6 5

Hailuo MiniMax Video-01MiniMax

8.4 6

Wan 2.1Alibaba

8.2 7

Luma Dream Machine 1.6Luma AI

8.1 8

Stable Video Diffusion 3DStability AI

7.8

Para LLMs usamos benchmarks objetivos. Para vídeo ainda não há um índice padrão da indústria — esta é uma avaliação curada nossa.Fonte: Avaliação editorial SWEN.AI

Explorar mais

Ver como tabela (filtros + comparador)GitHub Radar — open source em alta Benchmark por modelo Ferramentas Fichas técnicas Comparativos editoriais Tutoriais Glossário

Perguntas frequentes sobre o ranking de IA

Qual é a IA mais inteligente do mundo em 2026?

De acordo com o AA Intelligence Index — índice composto que agrega GPQA Diamond, MMLU-Pro, AIME, HLE e LiveCodeBench — GPT-5.5 (OpenAI) lidera o ranking em 2026 com score 60.2/100, seguido por Claude Opus 4.7 (57.3) e Gemini 3.1 Pro Preview (57.2). O Intelligence Index é calculado pela Artificial Analysis com base em avaliações independentes e reflete capacidade técnica real em raciocínio, matemática, ciências e programação. É diferente do ELO do LMArena, que mede preferência humana em conversas abertas. Para tarefas que exigem raciocínio profundo, código ou análise científica, os modelos no topo do Intelligence Index costumam ter melhor desempenho. Para conversas cotidianas e criatividade, o ELO é um guia mais representativo. Consulte o ranking atualizado para posições em tempo real.

Qual a diferença entre ELO e Intelligence Index?

O ELO vem do LMArena (Chatbot Arena), onde usuários reais comparam respostas de dois modelos anonimizados e escolhem o melhor. É uma medida de preferência humana subjetiva — reflete naturalidade, utilidade e qualidade percebida em conversas do dia a dia. Um modelo com ELO alto pode não ser o mais preciso em tarefas técnicas, mas é o que as pessoas preferem usar. O AA Intelligence Index, calculado pela Artificial Analysis, é objetivo: agrega resultados de benchmarks padronizados como GPQA Diamond (perguntas de nível doutorado), MMLU-Pro (conhecimento acadêmico amplo), AIME (matemática olímpica), HLE (fronteira do conhecimento científico) e LiveCodeBench (programação). Quanto maior o score, mais o modelo demonstrou capacidade técnica em avaliações controladas. Use o ELO para escolher um assistente conversacional geral; use o Intelligence Index para selecionar modelos em pipelines técnicos ou científicos.

Qual IA é melhor para programar em 2026?

Para programação, os benchmarks mais relevantes são o LiveCodeBench — desafios de código avaliados com execução real — e o AA Coding Index. Em 2026, GPT-5.5 lidera o ranking de código (59.1/100), com GPT-5.4 em segundo e GPT-5.4 Pro em terceiro. A escolha ideal depende do contexto: para geração de código via API, custo por token e janela de contexto importam tanto quanto a precisão. Para desenvolvimento interativo no IDE (Cursor, VS Code), a latência pesa muito. Para projetos com múltiplos arquivos, janelas acima de 100K tokens são necessárias. Consulte a tabela completa para comparar modelos de código por score, preço e velocidade.

Com que frequência o ranking é atualizado?

O ranking SWEN.AI é atualizado de forma automática e contínua a partir de três fontes principais. Os dados de benchmark da Artificial Analysis (Intelligence Index, Coding Index, Math Index, velocidade de inferência) são sincronizados a cada 6 horas via integração automatizada. Os preços de API — input e output por 1M tokens — são atualizados diariamente via OpenRouter, refletindo variações de providers em tempo quase real. O ELO do LMArena (Chatbot Arena) é sincronizado semanalmente. A página revalida o cache a cada 5 minutos via ISR (Incremental Static Regeneration): quando um novo modelo entra ou um score muda, o ranking atualiza em até 5 minutos sem rebuild manual. A última sincronização ocorreu em 24 de mai. de 2026.

Qual é a diferença entre Gemini 3, 3.1 e 3.5?

A família Gemini 3 do Google não segue numeração sequencial linear. O Google lançou versões Gemini 3 Flash, Gemini 3.1 Pro/Flash Lite e Gemini 3.5 Flash — sem publicar um "Gemini 3.2" oficial. Cada número indica uma geração técnica distinta: 3.1 trouxe melhorias de raciocínio; 3.5 ampliou capacidade com custo intermediário. O Gemini 3.1 Pro custa US$ 2,00/1M tokens (~R$ 11,92/1M) e tem janela de contexto de 1 milhão de tokens, posicionando-se como alternativa ao GPT-4o e Claude 3.7. Veja o comparativo completo da família Gemini 3 com preços em BRL →

O que é o Gemini Spark do Google?

“Gemini Spark” é um nome que circula online mas que o Google nunca lançou oficialmente como produto. O termo apareceu em APK teardowns associado a uma possível versão ultra-leve do Gemini para dispositivos de borda. Os modelos leves confirmados do Google são: Gemini Nano (on-device, Pixel 8 Pro/Pixel 9) e Gemini Flash(via API, US$ 0,075/1M tokens). Qualquer previsão sobre “Gemini Spark” é especulação até confirmação oficial. Entenda o que se sabe sobre o Gemini Spark →

Metodologia & fontes

Artificial Analysis — fornece Intelligence Index, Coding Index, Math Index e benchmarks individuais (GPQA Diamond, MMLU-Pro, HLE, AIME, MATH-500, LiveCodeBench). Sincronizado a cada 6h via cron automatizado.

LMArena — Elo de preferência humana em comparações blind side-by-side. Atualizado semanalmente.

OpenRouter — preços de provider em USD por 1M tokens. Atualizado diariamente.

Snapshots históricos — captura diária dos scores às 06:30 UTC para alimentar gráficos de evolução temporal. Iniciada em 24 de mai. de 2026.

Benchmarks são indicativos — sempre teste no seu caso de uso específico antes de decidir. Performance varia por provedor de inferência (mesmo modelo, latência diferente).

Mais inteligentes

Mais rápidos

Mais baratos

Intelligence Index

Evolução da inteligência

Código

AA Coding Index

LiveCodeBench

Matemática

AA Math Index

AIME 2025

MATH-500

Conhecimento e raciocínio

MMLU-Pro

GPQA Diamond

HLE — Humanity's Last Exam

Performance

Output tokens/segundo

Time to First Token (TTFT)

End-to-End Response Time

Janela de contexto

Custo

Preço input — modelos mais baratos com qualidade

Preferência humana

LMArena Elo

Capabilities avançadas

SciCode

IFBench — Instruction Following

AA-LCR — Long Context Reasoning

Terminal-Bench Hard

Tau²-Bench — Tool Use

Modelos de vídeo

Qualidade editorial — modelos de vídeo

Explorar mais

Perguntas frequentes sobre o ranking de IA

Qual é a IA mais inteligente do mundo em 2026?

Qual a diferença entre ELO e Intelligence Index?

Qual IA é melhor para programar em 2026?

Com que frequência o ranking é atualizado?

Qual é a diferença entre Gemini 3, 3.1 e 3.5?

O que é o Gemini Spark do Google?