GLM-5.2 lidera modelos de pesos abertos e é o terceiro no GDPval-AA
O modelo GLM-5.2 da Zai org alcançou 1524 Elo no benchmark GDPval-AA, destacando-se entre modelos abertos e superando várias opções proprietárias.

# GLM-5.2 lidera modelos de pesos abertos e é o terceiro no GDPval-AA
Desempenho do GLM-5.2 no benchmark GDPval-AA: 1524 Elo em tarefas agentic de alto valor
O modelo GLM-5.2, desenvolvido pela Zai org, alcançou 1524 pontos no ranking Elo do GDPval-AA, posicionando-se como o modelo de pesos abertos com melhor desempenho neste benchmark e conquistando a terceira colocação geral. O GDPval-AA (GDP-valuable Agentic Assessment) avalia modelos de linguagem em tarefas de conhecimento economicamente valioso, exigindo interações de longo prazo, raciocínio em múltiplas etapas e capacidade de execução autônoma — características que simulam cenários reais de uso profissional.
Esse resultado coloca o GLM-5.2 à frente de diversos modelos proprietários de grandes empresas, sinalizando uma mudança significativa no equilíbrio de forças entre modelos abertos e fechados no ecossistema de inteligência artificial.
Por que o terceiro lugar geral é tão relevante
O GLM-5.2 ficou atrás apenas de dois modelos da Anthropic no ranking geral do GDPval-AA:
| Posição | Modelo | Elo | Tipo |
|---------|--------|-----|------|
| 1º | Claude Fable 5 | 1783 | Proprietário |
| 2º | Claude Opus 4.8 | 1615 | Proprietário |
| 3º | GLM-5.2 | 1524 | Pesos abertos |
| 4º | GPT-5.5 (xhigh) | 1509 | Proprietário |
O empate técnico com o GPT-5.5 (xhigh), que registrou 1509 pontos — uma diferença de apenas 15 pontos Elo —, é particularmente notável. Modelos de pesos abertos historicamente ficam atrás das versões proprietárias de ponta em benchmarks agentic, o que torna essa proximidade um marco para a comunidade open-weight.
Liderança absoluta entre modelos de pesos abertos
Entre os modelos de pesos abertos, o GLM-5.2 lidera com uma margem expressiva. O segundo colocado nessa categoria, o MiniMax-M3, alcançou 1408 pontos — uma diferença de 116 pontos Elo, o que representa uma vantagem substancial em um sistema de classificação onde margens acima de 50 pontos já indicam superioridade consistente.
Essa distância sugere que o GLM-5.2 não apenas lidera entre os modelos abertos, mas o faz com folga suficiente para indicar uma diferença qualitativa real em tarefas que exigem raciocínio prolongado e tomada de decisão autônoma.
Comparação direta com modelos proprietários superados
O desempenho do GLM-5.2 ganha ainda mais contexto quando comparado aos modelos proprietários que ficaram abaixo dele no ranking:
- Gemini 3.5 Flash (Google): 1357 pontos — 167 pontos abaixo do GLM-5.2
- Qwen 3.7 Max: 1289 pontos — 235 pontos abaixo
- Muse Spark: 1158 pontos — 366 pontos abaixo
Superar o Gemini 3.5 Flash por 167 pontos Elo é um dado especialmente relevante, considerando que modelos Flash do Google são amplamente utilizados em aplicações comerciais de larga escala. Para organizações que avaliam alternativas abertas a soluções proprietárias, essa diferença de desempenho representa um argumento concreto a favor da adoção do GLM-5.2.
Robustez comprovada em tarefas agentic de longa duração
As tarefas avaliadas pelo GDPval-AA são de natureza agentic, ou seja, exigem que o modelo atue como um agente autônomo capaz de planejar, executar e ajustar ações ao longo de múltiplas interações. O GLM-5.2 registrou uma média de aproximadamente 31 interações por tarefa ao longo de 1.999 partidas avaliadas.
Esse volume de interações por tarefa indica que o benchmark não mede apenas respostas pontuais, mas a capacidade do modelo de manter coerência, adaptar estratégias e resolver problemas complexos em sequências prolongadas. A consistência do GLM-5.2 nesse formato reforça sua aplicabilidade em cenários profissionais que demandam agentes de IA confiáveis para fluxos de trabalho extensos.
Posição consolidada no Índice de Análise Artificial
O desempenho do GLM-5.2 no GDPval-AA não é um resultado isolado. O modelo também se destaca em outros rankings do ecossistema de avaliação Artificial Analysis:
- Índice de Análise Artificial geral: líder entre modelos de pesos abertos
- Índice Agentic: 3ª posição geral
- AA-Briefcase: 3ª posição geral
Essa consistência em múltiplos benchmarks — todos focados em capacidades práticas e economicamente relevantes — indica que o GLM-5.2 não foi otimizado para um único teste, mas apresenta competência generalizada em tarefas que simulam demandas reais do mercado. Para equipes técnicas e decisores que buscam modelos abertos com desempenho competitivo frente a soluções proprietárias, o GLM-5.2 da Zai org se posiciona como a principal referência disponível atualmente.
Ver no Ranking SWEN.AI →
Claude, GPT-5, Gemini — por ELO, preço e velocidade
Benchmark de IA
Compare GPT, Claude, Gemini e mais: preços, velocidade e benchmarks.
