Apresentando o Agent Arena: avaliações de agentes em uso real em grande escala.
Como você avalia agentes realizando trabalho real? Medimos milhões de sessões ao vivo onde usuários reais realizam tarefas reais.
No Arena, os modelos agora têm acesso a ferramentas de busca na web, sistema de arquivos e terminal para completar fluxos de trabalho complexos: escrever código, criar apresentações, pesquisar na web, construir aplicativos e analisar documentos.
Cada sessão produz sinais ricos. Os usuários interagem com o agente turno a turno: aprovando, editando, corrigindo, elogiando ou expressando frustração. O ambiente também fornece feedback: erros de shell, falhas de ferramentas, tentativas de recuperação e mais.
Nosso ranking mede o desempenho agente de cada modelo usando inferência causal em cinco sinais: sucesso na tarefa, capacidade de direcionamento, recuperação de erros, elogios do usuário versus reclamações e alucinação de ferramentas.
Este instantâneo do ranking é construído a partir de mais de 300 mil tarefas, mais de 2 milhões de chamadas de ferramentas e 40 milhões de linhas de código por agentes.
Principais laboratórios no Agent Arena:
- #1 @OpenAI: GPT-5.5 (Alto)
- #2 @AnthropicAI: Claude-Opus-4.7 (Pensando)
- #3 @Zai_org: GLM-5.1
- #4 @GoogleDeepMind: Gemini-3.1-Pro
- #5 @Kimi_Moonshot: Kimi-K2.6
Mais análises no tópico, com o blog técnico completo abaixo.