Comparativo dos modelos de IA com melhor performance em benchmarks de programação como SWE-bench, HumanEval e LiveCodeBench. 118 modelos rankeados por score de coding.
Última atualização: 26 de abril de 2026 •118 modelos com benchmarks de código
Sugestões inline enquanto você digita. Ideal para IDEs como Cursor e VS Code.
Top modelos: Google: Gemini 3 Flash Preview, DeepSeek: DeepSeek V3.2 Speciale, Anthropic: Claude Opus 4.5
Criar funções, classes e projetos completos a partir de descrições em linguagem natural.
Top modelos: Google: Gemini 3 Flash Preview, DeepSeek: DeepSeek V3.2 Speciale, Anthropic: Claude Opus 4.5
Identificar bugs, sugerir correções e revisar pull requests automaticamente.
Top modelos: Google: Gemini 3 Flash Preview, DeepSeek: DeepSeek V3.2 Speciale, Anthropic: Claude Opus 4.5
| # | Modelo | Empresa | Coding Score | Benchmark | Context | Preço Input | Open Source |
|---|---|---|---|---|---|---|---|
| 🥇 | Google: Gemini 3 Flash Preview | 90.8 | LiveCodeBench | 1.0M tokens | $0.50 | — | |
| 🥈 | DeepSeek: DeepSeek V3.2 Speciale | DeepSeek | 89.6 | LiveCodeBench | 164K tokens | $0.40 | ✅ |
| 🥉 | Anthropic: Claude Opus 4.5 | Anthropic | 87.1 | LiveCodeBench | 200K tokens | $5.00 | — |
| 4 | DeepSeek: DeepSeek V3.2 | DeepSeek | 86.2 | LiveCodeBench | 131K tokens | $0.25 | ✅ |
| 5 | MoonshotAI: Kimi K2.6 | MoonshotAI | 85.3 | LiveCodeBench | 262K tokens | $0.75 | ✅ |
| 6 | OpenAI: GPT-5 Mini | OpenAI | 83.8 | LiveCodeBench | 400K tokens | $0.25 | — |
| 7 | MiniMax: MiniMax M2.5 | MiniMax | 82.6 | LiveCodeBench | 197K tokens | $0.15 | ✅ |
| 8 | MiniMax: MiniMax M2.1 | MiniMax | 81.0 | LiveCodeBench | 197K tokens | $0.29 | ✅ |
| 9 | OpenAI: o3 | OpenAI | 80.8 | LiveCodeBench | 200K tokens | $2.00 | — |
| 10 | OpenAI: o3 Pro | OpenAI | 80.8 | LiveCodeBench | 200K tokens | $20.00 | — |
| 11 | Google: Gemini 2.5 Pro | 80.1 | LiveCodeBench | 1.0M tokens | $1.25 | — | |
| 12 | DeepSeek: DeepSeek V3.1 Terminus | DeepSeek | 79.8 | LiveCodeBench | 164K tokens | $0.21 | ✅ |
| 13 | DeepSeek: DeepSeek V3.2 Exp | DeepSeek | 78.9 | LiveCodeBench | 164K tokens | $0.27 | ✅ |
| 14 | OpenAI: GPT-5 | OpenAI | 78.6 | LiveBench Coding | 400K tokens | $1.25 | — |
| 15 | OpenAI: GPT-5.3 Chat | OpenAI | 78.2 | LiveBench Coding | 128K tokens | $1.75 | — |
| 16 | MoonshotAI: Kimi K2.5 | MoonshotAI | 77.9 | LiveBench Coding | 262K tokens | $0.44 | ✅ |
| 17 | Google: Gemini 2.5 Pro Preview 06-05 | 77.8 | LiveCodeBench | 1.0M tokens | $1.25 | — | |
| 18 | OpenAI: gpt-oss-20b | OpenAI | 77.7 | LiveCodeBench | 131K tokens | $0.03 | — |
| 19 | OpenAI: GPT-5.4 Pro | OpenAI | 77.5 | LiveBench Coding | 1.1M tokens | $30.00 | — |
| 20 | OpenAI: GPT-5.1 | OpenAI | 77.5 | LiveBench Coding | 400K tokens | $1.25 | — |
| 21 | Google: Gemini 3.1 Pro Preview | 76.5 | LiveBench Coding | 1.0M tokens | $2.00 | — | |
| 22 | OpenAI: GPT-5 Nano | OpenAI | 76.3 | LiveCodeBench | 400K tokens | $0.05 | — |
| 23 | Anthropic: Claude Sonnet 4.5 | Anthropic | 76.1 | LiveBench Coding | 1.0M tokens | $3.00 | — |
| 24 | Qwen: Qwen3 VL 32B Instruct | Alibaba | 73.8 | LiveCodeBench | 131K tokens | $0.10 | ✅ |
| 25 | OpenAI: o3 Mini | OpenAI | 73.4 | LiveCodeBench | 200K tokens | $1.10 | — |
| 26 | Anthropic: Claude Haiku 4.5 | Anthropic | 72.2 | LiveBench Coding | 200K tokens | $1.00 | — |
| 27 | OpenAI: GPT-5.4 Nano | OpenAI | 72.1 | LiveBench Coding | 400K tokens | $0.20 | — |
| 28 | OpenAI: GPT-5 Pro | OpenAI | 72.1 | LiveBench Coding | 400K tokens | $15.00 | — |
| 29 | OpenAI: o3 Mini High | OpenAI | 71.7 | LiveCodeBench | 200K tokens | $1.10 | — |
| 30 | OpenAI: GPT-5.4 Mini | OpenAI | 71.6 | LiveBench Coding | 400K tokens | $0.75 | — |
| 31 | OpenAI: gpt-oss-120b | OpenAI | 70.7 | LiveCodeBench | 131K tokens | $0.04 | — |
| 32 | Qwen: Qwen3 235B A22B Instruct 2507 | Alibaba | 69.6 | LiveBench Coding | 262K tokens | $0.07 | ✅ |
| 33 | Deep Cogito: Cogito v2.1 671B | Deep Cogito | 68.8 | LiveCodeBench | 128K tokens | $1.25 | — |
| 34 | Google: Gemini 3.1 Flash Lite Preview | 68.5 | LiveBench Coding | 1.0M tokens | $0.25 | — | |
| 35 | Qwen: Qwen3 Next 80B A3B Instruct | Alibaba | 68.4 | LiveCodeBench | 262K tokens | $0.09 | ✅ |
| 36 | OpenAI: o1-pro | OpenAI | 67.9 | LiveCodeBench | 200K tokens | $150.00 | — |
| 37 | AllenAI: Olmo 3 32B Think | AllenAI | 67.2 | LiveCodeBench | 66K tokens | $0.15 | ✅ |
| 38 | OpenAI: GPT-5.2 Chat | OpenAI | 66.9 | LiveCodeBench | 128K tokens | $1.75 | — |
| 39 | Mistral: Devstral 2 2512 | Mistral AI | 66.8 | LiveBench Coding | 262K tokens | $0.40 | ✅ |
| 40 | Google: Gemini 2.5 Flash | 66.0 | LiveBench Coding | 1.0M tokens | $0.30 | — | |
| 41 | Arcee AI: Trinity Large Thinking | Arcee AI | 65.7 | LiveBench Coding | 262K tokens | $0.22 | ✅ |
| 42 | Google: Gemini 2.5 Flash Lite | 65.4 | LiveBench Coding | 1.0M tokens | $0.10 | — | |
| 43 | DeepSeek: R1 | DeepSeek | 61.7 | LiveCodeBench | 64K tokens | $0.70 | ✅ |
| 44 | MoonshotAI: Kimi K2 0905 | MoonshotAI | 61.0 | LiveCodeBench | 262K tokens | $0.40 | ✅ |
| 45 | Google: Gemma 4 31B | 60.3 | LiveBench Coding | 262K tokens | $0.13 | — | |
| 46 | Qwen: Qwen3 VL 235B A22B Instruct | Alibaba | 59.4 | LiveCodeBench | 262K tokens | $0.20 | ✅ |
| 47 | OpenAI: GPT-5.5 Pro | OpenAI | 59.1 | AA Coding Index | 1.1M tokens | $30.00 | — |
| 48 | DeepSeek: DeepSeek V3.1 | DeepSeek | 57.7 | LiveCodeBench | 33K tokens | $0.15 | ✅ |
| 49 | OpenAI: o1 | OpenAI | 57.6 | LiveCodeBench | 200K tokens | $15.00 | — |
| 50 | MiniMax: MiniMax M2.7 | MiniMax | 54.9 | LiveBench Coding | 197K tokens | $0.30 | ✅ |
| 51 | OpenAI: GPT-5 Chat | OpenAI | 54.3 | LiveCodeBench | 128K tokens | $1.25 | — |
| 52 | Anthropic: Claude Opus 4.7 | Anthropic | 53.1 | AA Coding Index | 1.0M tokens | $5.00 | — |
| 53 | OpenAI: GPT-5.1 Chat | OpenAI | 49.4 | LiveCodeBench | 128K tokens | $1.25 | — |
| 54 | Qwen: Qwen3 30B A3B Thinking 2507 | Alibaba | 48.9 | LiveBench Coding | 131K tokens | $0.08 | ✅ |
| 55 | OpenAI: GPT-4.1 Mini | OpenAI | 48.3 | LiveCodeBench | 1.0M tokens | $0.40 | — |
| 56 | Anthropic: Claude Opus 4.6 | Anthropic | 48.1 | AA Coding Index | 1.0M tokens | $5.00 | — |
| 57 | Anthropic: Claude Opus 4.6 (Fast) | Anthropic | 48.1 | AA Coding Index | 1.0M tokens | $30.00 | — |
| 58 | Qwen: Qwen3 VL 30B A3B Instruct | Alibaba | 47.6 | LiveCodeBench | 131K tokens | $0.13 | ✅ |
| 59 | DeepSeek: DeepSeek V4 Pro | DeepSeek | 47.5 | AA Coding Index | 1.0M tokens | $0.43 | ✅ |
| 60 | Anthropic: Claude 3.7 Sonnet | Anthropic | 47.3 | LiveCodeBench | 200K tokens | $3.00 | — |
| 61 | Baidu: ERNIE 4.5 300B A47B | Baidu | 46.7 | LiveCodeBench | 123K tokens | $0.28 | ✅ |
| 62 | Anthropic: Claude Sonnet 4.6 | Anthropic | 46.4 | AA Coding Index | 1.0M tokens | $3.00 | — |
| 63 | OpenAI: GPT-4.1 | OpenAI | 45.7 | LiveCodeBench | 1.0M tokens | $2.00 | — |
| 64 | Kwaipilot: KAT-Coder-Pro V2 | Kwaipilot | 45.6 | AA Coding Index | 256K tokens | $0.30 | — |
| 65 | OpenAI: GPT-5.2 | OpenAI | 43.0 | AA Coding Index | 400K tokens | $1.75 | — |
| 66 | OpenAI: GPT-4o (2024-05-13) | OpenAI | 42.5 | LiveCodeBench | 128K tokens | $5.00 | — |
| 67 | OpenAI: GPT-4o (2024-11-20) | OpenAI | 42.5 | LiveCodeBench | 128K tokens | $2.50 | — |
| 68 | Mistral: Mistral Medium 3.1 | Mistral AI | 40.6 | LiveCodeBench | 131K tokens | $0.40 | ✅ |
| 69 | DeepSeek: DeepSeek V3 | DeepSeek | 40.5 | LiveCodeBench | 164K tokens | $0.32 | ✅ |
| 70 | Qwen: Qwen3 Coder 30B A3B Instruct | Alibaba | 40.3 | LiveCodeBench | 160K tokens | $0.07 | ✅ |
| 71 | DeepSeek: DeepSeek V4 Flash | DeepSeek | 39.8 | AA Coding Index | 1.0M tokens | $0.14 | ✅ |
| 72 | Meta: Llama 4 Maverick | Meta | 39.7 | LiveCodeBench | 1.0M tokens | $0.15 | ✅ |
| 73 | Mistral: Ministral 3 14B 2512 | Mistral AI | 35.1 | LiveCodeBench | 262K tokens | $0.20 | ✅ |
| 74 | Mistral: Devstral Medium | Mistral AI | 33.7 | LiveCodeBench | 131K tokens | $0.40 | ✅ |
| 75 | Qwen: Qwen3 VL 8B Instruct | Alibaba | 33.2 | LiveCodeBench | 131K tokens | $0.08 | ✅ |
| 76 | OpenAI: GPT-4.1 Nano | OpenAI | 32.6 | LiveCodeBench | 1.0M tokens | $0.10 | — |
| 77 | Google: Gemini 2.0 Flash | 32.1 | LiveCodeBench | 1.0M tokens | $0.10 | — | |
| 78 | Amazon: Nova Premier 1.0 | Amazon | 31.7 | LiveCodeBench | 1.0M tokens | $2.50 | — |
| 79 | Anthropic: Claude 3.5 Haiku | Anthropic | 31.4 | LiveCodeBench | 200K tokens | $0.80 | — |
| 80 | Inception: Mercury 2 | Inception | 30.6 | AA Coding Index | 128K tokens | $0.25 | — |
| 81 | Mistral: Ministral 3 8B 2512 | Mistral AI | 30.3 | LiveCodeBench | 262K tokens | $0.15 | ✅ |
| 82 | Meta: Llama 4 Scout | Meta | 29.9 | LiveCodeBench | 328K tokens | $0.08 | ✅ |
| 83 | Google: Gemma 4 26B A4B | 29.1 | AA Coding Index | 262K tokens | $0.06 | — | |
| 84 | OpenAI: GPT-4 Turbo | OpenAI | 29.1 | LiveCodeBench | 128K tokens | $10.00 | — |
| 85 | Anthropic: Claude 3.7 Sonnet (thinking) | Anthropic | 27.9 | LiveCodeBench | 200K tokens | $3.00 | — |
| 86 | Mistral: Mistral Small 3.2 24B | Mistral AI | 27.5 | LiveCodeBench | 128K tokens | $0.07 | ✅ |
| 87 | DeepSeek: R1 Distill Qwen 32B | DeepSeek | 27.0 | LiveCodeBench | 33K tokens | $0.29 | ✅ |
| 88 | DeepSeek: R1 Distill Llama 70B | DeepSeek | 26.6 | LiveCodeBench | 131K tokens | $0.70 | ✅ |
| 89 | Mistral: Pixtral Large 2411 | Mistral AI | 26.1 | LiveCodeBench | 131K tokens | $2.00 | — |
| 90 | Mistral: Devstral Small 1.1 | Mistral AI | 25.8 | LiveCodeBench | 131K tokens | $0.10 | ✅ |
| 91 | Mistral: Ministral 3 3B 2512 | Mistral AI | 24.7 | LiveCodeBench | 131K tokens | $0.10 | ✅ |
| 92 | Mistral: Mistral Small 4 | Mistral AI | 24.3 | AA Coding Index | 262K tokens | $0.15 | ✅ |
| 93 | OpenAI: GPT-4o-mini | OpenAI | 23.4 | LiveCodeBench | 128K tokens | $0.15 | — |
| 94 | OpenAI: GPT-4o-mini (2024-07-18) | OpenAI | 23.4 | LiveCodeBench | 128K tokens | $0.15 | — |
| 95 | Amazon: Nova Pro 1.0 | Amazon | 23.3 | LiveCodeBench | 300K tokens | $0.80 | — |
| 96 | Mistral: Mistral Small 3.1 24B | Mistral AI | 21.2 | LiveCodeBench | 128K tokens | $0.35 | ✅ |
| 97 | Meta: Llama 3.1 70B Instruct | Meta | 18.8 | LiveCodeBench | 131K tokens | $0.40 | ✅ |
| 98 | Google: Gemini 2.0 Flash Lite | 18.5 | LiveCodeBench | 1.0M tokens | $0.07 | — | |
| 99 | IBM: Granite 4.0 Micro | IBM | 18.0 | LiveCodeBench | 131K tokens | $0.02 | ✅ |
| 100 | Mistral Large | Mistral AI | 17.8 | LiveCodeBench | 128K tokens | $2.00 | ✅ |
| 101 | Amazon: Nova Lite 1.0 | Amazon | 16.7 | LiveCodeBench | 300K tokens | $0.06 | — |
| 102 | Anthropic: Claude 3 Haiku | Anthropic | 15.4 | LiveCodeBench | 200K tokens | $0.25 | — |
| 103 | Mistral: Mixtral 8x22B Instruct | Mistral AI | 14.8 | LiveCodeBench | 66K tokens | $2.00 | ✅ |
| 104 | Amazon: Nova Micro 1.0 | Amazon | 14.0 | LiveCodeBench | 128K tokens | $0.04 | — |
| 105 | Google: Gemma 3 12B | 13.7 | LiveCodeBench | 131K tokens | $0.04 | — | |
| 106 | Google: Gemma 3 27B | 13.7 | LiveCodeBench | 131K tokens | $0.08 | — | |
| 107 | Mistral: Mistral Medium 3 | Mistral AI | 13.6 | AA Coding Index | 131K tokens | $0.40 | ✅ |
| 108 | Microsoft: Phi 4 | Microsoft | 13.1 | LiveCodeBench | 16K tokens | $0.07 | ✅ |
| 109 | OpenAI: GPT-4 | OpenAI | 13.1 | AA Coding Index | 8K tokens | $30.00 | — |
| 110 | Cohere: Command R+ (08-2024) | Cohere | 12.2 | LiveCodeBench | 128K tokens | $2.50 | — |
| 111 | Google: Gemma 3 4B | 11.2 | LiveCodeBench | 131K tokens | $0.04 | — | |
| 112 | OpenAI: GPT-3.5 Turbo | OpenAI | 10.7 | AA Coding Index | 16K tokens | $0.50 | — |
| 113 | Meta: Llama 3.1 8B Instruct | Meta | 8.5 | LiveCodeBench | 16K tokens | $0.02 | ✅ |
| 114 | Mistral: Mixtral 8x7B Instruct | Mistral AI | 6.6 | LiveCodeBench | 33K tokens | $0.54 | ✅ |
| 115 | AllenAI: Olmo 3.1 32B Instruct | AllenAI | 5.6 | AA Coding Index | 66K tokens | $0.20 | ✅ |
| 116 | Cohere: Command R7B (12-2024) | Cohere | 4.8 | LiveCodeBench | 128K tokens | $0.04 | — |
| 117 | Mistral: Mistral 7B Instruct v0.1 | Mistral AI | 4.6 | LiveCodeBench | 3K tokens | $0.11 | ✅ |
| 118 | LiquidAI: LFM2-24B-A2B | LiquidAI | 3.6 | AA Coding Index | 33K tokens | $0.03 | ✅ |
+ 82 modelos sem benchmark de coding disponível.Ver todos os modelos
A inteligência artificial transformou radicalmente o desenvolvimento de software nos últimos anos. Em 2026, modelos de linguagem (LLMs) são capazes de gerar código funcional em dezenas de linguagens, resolver bugs em projetos reais e até criar aplicações completas a partir de descrições em linguagem natural. O SWE-bench — o benchmark mais rigoroso para coding — avalia modelos em tarefas reais de engenharia de software extraídas de issues do GitHub.
O SWE-bench (Software Engineering Benchmark) é considerado o padrão ouro para avaliar capacidade de coding de LLMs. Diferente de benchmarks acadêmicos como HumanEval (que testa funções isoladas), o SWE-bench apresenta issues reais de repositórios populares como Django, Flask, scikit-learn e requests. O modelo precisa entender o contexto do projeto, localizar os arquivos relevantes e gerar um patch que resolva o bug — simulando o trabalho real de um desenvolvedor.
A versão "Verified" do SWE-bench (SWE-bench Verified) é curada por engenheiros humanos para garantir que cada tarefa tem uma solução clara e verificável. Os scores neste benchmark são particularmente informativos porque correlacionam fortemente com a experiência real de uso para coding.
HumanEval, criado pela OpenAI, testa a capacidade de gerar funções Python a partir de docstrings. É um benchmark mais simples que o SWE-bench, mas útil para avaliar fluência básica em código. LiveCodeBench adiciona uma camada de complexidade ao testar com problemas que são atualizados regularmente, reduzindo o risco de contaminação (quando o modelo já viu as respostas durante o treinamento).
A escolha do modelo ideal depende do caso de uso específico. Para autocompletar código em tempo real (Cursor, Copilot), velocidade e latência são mais importantes que score máximo — modelos menores como GPT-4o-mini e Claude Haiku oferecem excelente relação velocidade/qualidade. Para geração de projetos completos ou debug complexo, modelos frontier como Claude Opus, GPT-4o e Gemini Ultra são mais adequados, apesar do custo maior.
Para equipes que precisam de controle sobre os dados (compliance, segurança), modelos open source como DeepSeek Coder, Code Llama e StarCoder permitem deploy on-premises com performance competitiva. A decisão entre proprietário e open source envolve tradeoffs de custo, latência, privacidade e qualidade.
As principais ferramentas de desenvolvimento assistido por IA em 2026 incluem Cursor (IDE completa com suporte a Claude e GPT), GitHub Copilot (extensão VS Code com modelos OpenAI), Windsurf (ex-Codeium, focado em acessibilidade), e Amazon CodeWhisperer (integrado ao ecossistema AWS). Cada ferramenta usa diferentes modelos por baixo, e a qualidade do código gerado depende diretamente da capacidade do LLM utilizado.
Para desenvolvedores brasileiros, um fator importante é a capacidade do modelo de entender comentários, nomes de variáveis e documentação em português — algo que varia significativamente entre modelos e que não é capturado pelos benchmarks tradicionais em inglês.
As tendências mais relevantes em IA para código incluem: agentes autônomos de engenharia (que resolvem tarefas complexas sem supervisão), geração de testes automatizados, refatoração inteligente, e integração nativa com pipelines de CI/CD. A fronteira está se movendo de “assistente de código” para “engenheiro autônomo”, com modelos cada vez mais capazes de navegar codebases grandes e tomar decisões arquiteturais.
Em 2026, os modelos que lideram em benchmarks de código são Google: Gemini 3 Flash Preview, DeepSeek: DeepSeek V3.2 Speciale, Anthropic: Claude Opus 4.5. No entanto, a melhor escolha depende do caso de uso: autocompletar código, geração de projetos completos, debug ou code review.
Ambos são excelentes para programação. Claude tende a ser melhor em contextos longos (bases de código grandes) e seguir instruções complexas. GPT tem forte performance em geração rápida e edição inline. Teste ambos no seu caso de uso específico.
SWE-bench (Software Engineering Benchmark) avalia a capacidade de modelos de resolver issues reais de repositórios open source no GitHub. É considerado o benchmark mais realista para coding, pois testa resolução de bugs em projetos reais, não exercícios acadêmicos.
Modelos open source como DeepSeek Coder, Qwen Coder e Code Llama oferecem excelente performance em coding sem custo de API. Podem ser rodados localmente via Ollama ou acessados gratuitamente em plataformas como Together AI e Groq.
Cursor e Copilot são IDEs/extensões que usam LLMs por baixo. Cursor permite escolher o modelo (Claude, GPT, etc.), enquanto Copilot usa modelos da OpenAI. A qualidade do código gerado depende mais do modelo escolhido do que da ferramenta em si.