Agent Arena avalia desempenho de agentes em tarefas reais

A Agent Arena mede o desempenho de modelos de IA em tarefas do mundo real, utilizando milhões de sessões ao vivo. O sistema fornece ferramentas como busca na web e terminal para completar fluxos de trabalho complexos.

Redação SWEN.AI4 de junho de 2026, 16:06 Atualizado em há cerca de 1 hora

2 min

Twitter Radar

x.com

Ver original

Agent Arena avalia desempenho de agentes em tarefas reais

Apresentando o Agent Arena: avaliações de agentes em uso real em grande escala.

Como você avalia agentes realizando trabalho real? Medimos milhões de sessões ao vivo onde usuários reais realizam tarefas reais.

No Arena, os modelos agora têm acesso a ferramentas de busca na web, sistema de arquivos e terminal para completar fluxos de trabalho complexos: escrever código, criar apresentações, pesquisar na web, construir aplicativos e analisar documentos.

Cada sessão produz sinais ricos. Os usuários interagem com o agente turno a turno: aprovando, editando, corrigindo, elogiando ou expressando frustração. O ambiente também fornece feedback: erros de shell, falhas de ferramentas, tentativas de recuperação e mais.

Nosso ranking mede o desempenho agente de cada modelo usando inferência causal em cinco sinais: sucesso na tarefa, capacidade de direcionamento, recuperação de erros, elogios do usuário versus reclamações e alucinação de ferramentas.

Este instantâneo do ranking é construído a partir de mais de 300 mil tarefas, mais de 2 milhões de chamadas de ferramentas e 40 milhões de linhas de código por agentes.

Principais laboratórios no Agent Arena:

#1 @OpenAI: GPT-5.5 (Alto)

#2 @AnthropicAI: Claude-Opus-4.7 (Pensando)

#3 @Zai_org: GLM-5.1

#4 @GoogleDeepMind: Gemini-3.1-Pro

#5 @Kimi_Moonshot: Kimi-K2.6

Mais análises no tópico, com o blog técnico completo abaixo.

Ver no Ranking SWEN.AI →

Claude, GPT-5, Gemini — por ELO, preço e velocidade

Abrir Benchmark

Benchmark de IA

Compare GPT, Claude, Gemini e mais: preços, velocidade e benchmarks.

Ver Ranking Geral Comparar Modelos Top LLMs 2026

Agent Arena avalia desempenho de agentes em tarefas reais

Relacionadas

Explore outras categorias

Relacionadas