GLM-5.2 supera GPT-5.5 em benchmark de tarefas reais

O modelo GLM-5.2, desenvolvido pela Zhipu AI, alcançou a terceira posição geral no GDPval-AA, um benchmark focado em tarefas reais de agentes, superando o GPT-5.5 da OpenAI. Este resultado marca um ponto de inflexão na corrida entre modelos de código aberto e proprietários, demonstrando que a distância entre essas duas categorias está diminuindo de forma acelerada em cenários de aplicação prática.

O que é o Benchmark GDPval-AA e por que ele importa

O GDPval-AA se diferencia de benchmarks tradicionais por avaliar modelos de inteligência artificial em tarefas profissionais e criativas do mundo real, não apenas em questões acadêmicas ou de múltipla escolha. Em vez de medir capacidade teórica, o benchmark exige que os modelos produzam entregáveis práticos completos a partir de briefs idênticos, simulando demandas reais de mercado.

Entre as tarefas aplicadas no GDPval-AA estavam desafios como a elaboração de uma lista de tarefas operacionais para um supervisor de varejo, o projeto de um esquema de circuito de parada de emergência industrial e a criação de um moodboard conceitual para um vídeo musical. Essa diversidade de cenários testa simultaneamente raciocínio lógico, conhecimento técnico especializado e capacidade criativa — habilidades que definem a utilidade real de um modelo de IA no dia a dia profissional.

O fato de o GLM-5.2 ter superado o GPT-5.5 especificamente nesse tipo de avaliação prática é significativo: indica que a performance em tarefas reais de agentes não é mais exclusividade de modelos proprietários de grandes empresas.

Avanços na competição de código aberto contra modelos proprietários

O desempenho do GLM-5.2 no GDPval-AA reforça uma tendência que vem se consolidando ao longo de 2025: modelos de código aberto estão reduzindo a lacuna em relação aos modelos proprietários em ritmo cada vez mais acelerado. Enquanto no início de 2024 a diferença de desempenho entre as duas categorias era substancial na maioria dos benchmarks, resultados como este mostram que essa vantagem está se estreitando, especialmente em avaliações que priorizam aplicação prática.

Para o ecossistema de IA como um todo, essa competição acirrada traz benefícios concretos. Modelos de código aberto competitivos ampliam o acesso à tecnologia de ponta, permitem maior auditabilidade e personalização, e pressionam os desenvolvedores de modelos proprietários a acelerar suas próprias inovações. O resultado do GLM-5.2 sugere que os próximos lançamentos — tanto de código aberto quanto proprietários — devem elevar ainda mais o patamar de qualidade em tarefas reais de agentes.

A expectativa é que essa dinâmica competitiva beneficie diretamente profissionais e empresas que dependem de modelos de IA para automatizar fluxos de trabalho complexos, desde planejamento operacional até produção criativa.

GLM-5.2 supera GPT-5.5 em benchmark de tarefas reais