GLM 5.2 é o melhor modelo open-source no DeepSWE
O modelo GLM 5.2 alcançou uma pontuação de 44% no pass@1, superando o Kimi K2.7 Code em 17%.

# GLM 5.2 é o melhor modelo open-source no DeepSWE
O modelo GLM 5.2 alcançou a primeira posição entre os modelos open-source no benchmark DeepSWE, registrando uma pontuação de 44% no pass@1 com esforço máximo de inferência. O resultado representa uma vantagem de 17 pontos percentuais sobre o segundo colocado, o Kimi K2.7 Code, e reposiciona o ecossistema de modelos abertos no cenário de engenharia de software automatizada.
Desempenho do GLM 5.2 no benchmark DeepSWE
O DeepSWE é um benchmark projetado para avaliar a capacidade de modelos de linguagem em resolver tarefas reais de engenharia de software — desde correção de bugs até implementação de funcionalidades completas em repositórios de código existentes. A métrica pass@1 mede a taxa de acerto na primeira tentativa, sem reamostragem, o que torna o resultado do GLM 5.2 especialmente relevante: 44 de cada 100 tarefas são resolvidas corretamente já na primeira geração de código.
Para contextualizar a magnitude dessa vantagem, o Kimi K2.7 Code — até então referência entre modelos open-source para tarefas de código — atingiu aproximadamente 27% no mesmo benchmark. A diferença de 17 pontos percentuais não é incremental; representa um salto de 63% em desempenho relativo, algo incomum em ciclos curtos de evolução de modelos abertos.
Outro dado que merece atenção: o GLM 5.2 opera com esforço máximo de inferência (max effort), o que indica que o modelo se beneficia significativamente de estratégias como chain-of-thought estendido e alocação ampliada de tokens de raciocínio durante a geração de respostas.
Por que o resultado importa para a comunidade de IA
A liderança do GLM 5.2 no DeepSWE altera a dinâmica competitiva entre modelos open-source voltados para engenharia de software de três formas concretas.
Primeiro, reduz a dependência de APIs proprietárias. Até recentemente, os melhores resultados em benchmarks de SWE pertenciam a modelos fechados como o Claude 4.0 Sonnet e o GPT-4.1. Um modelo open-source atingindo 44% no pass@1 aproxima o desempenho aberto do patamar proprietário, permitindo que equipes de desenvolvimento integrem capacidades avançadas de geração de código sem custos recorrentes de API ou restrições de licenciamento.
Segundo, valida a arquitetura GLM para tarefas de raciocínio em código. O GLM (General Language Model), desenvolvido pela equipe da Zhipu AI, utiliza uma arquitetura que combina mecanismos de atenção otimizados com pré-treinamento em corpora diversificados de código e linguagem natural. O resultado no DeepSWE sugere que essa abordagem escala de forma eficiente para tarefas que exigem compreensão contextual profunda de repositórios inteiros.
Terceiro, estabelece um novo piso de desempenho para modelos open-source. Com o GLM 5.2 fixando a marca em 44%, futuros lançamentos de modelos abertos — incluindo iterações do Qwen, LLaMA e DeepSeek — precisarão superar esse patamar para reivindicar liderança na categoria.
O que desenvolvedores devem considerar na prática
Apesar do resultado expressivo, é importante avaliar o GLM 5.2 dentro do contexto correto. O pass@1 com esforço máximo envolve custo computacional elevado, o que significa que a latência e o consumo de recursos por tarefa podem ser significativamente maiores do que em configurações de inferência padrão. Para aplicações em produção que exigem respostas em tempo real, o trade-off entre precisão e velocidade precisa ser mensurado caso a caso.
Além disso, benchmarks como o DeepSWE, embora rigorosos, representam um subconjunto específico de tarefas de engenharia de software. O desempenho em cenários reais — com bases de código proprietárias, documentação incompleta e requisitos ambíguos — pode variar.
Ainda assim, o marco é inequívoco: o GLM 5.2, com seus 44% no pass@1, redefine o que modelos open-source conseguem entregar em engenharia de software automatizada e sinaliza que a distância entre soluções abertas e proprietárias continua diminuindo a cada ciclo de lançamento.
Ver no Ranking SWEN.AI →
Claude, GPT-4, Llama — por ELO, preço e velocidade
Benchmark de IA
Compare GPT, Claude, Gemini e mais: preços, velocidade e benchmarks.
