Modelos de IA de ponta falham em novo benchmark de TI da IBM e Artificial Analysis

Menos de 50%. Essa é a nota máxima que as IAs mais potentes do planeta alcançaram em um novo teste corporativo.

A IBM Research e a Artificial Analysis lançaram o ITBench-AA, o primeiro benchmark focado em tarefas reais de TI.

Os resultados mostram que a IA ainda sofre para resolver problemas complexos de infraestrutura de rede.

O que muda para você

> "As tarefas do benchmark exigem que modelos diagnostiquem sistemas Kubernetes ao vivo, rastreando dependências e logs."

O novo benchmark foca em tarefas de SRE, sigla para Engenharia de Confiabilidade de Sites.

Na prática, a IA precisa agir como um técnico de suporte de alto nível.

Ela deve ler logs e entender conexões entre servidores para achar a causa de uma queda.

Segundo a IBM Research, essa é a primeira avaliação desse tipo.

Por que a IA está falhando?

O Kubernetes é o padrão para rodar aplicativos modernos na nuvem hoje em dia.

No entanto, ele é extremamente complexo de gerenciar e exige raciocínio lógico profundo.

O ITBench-AA simula incidentes reais para testar essa capacidade de agir como agente.

Diagnóstico em tempo real

A IA não pode apenas dar uma resposta teórica ou genérica.

Ela precisa identificar a "causa raiz" em uma infraestrutura cheia de dependências cruzadas.

Os modelos atuais ainda se perdem quando o volume de dados técnicos é muito alto.

Os números que chamam atenção

Os resultados mostram que nem os modelos de "fronteira" estão prontos para o controle total.

Mesmo com raciocínio avançado, a barreira dos 50% não foi quebrada por ninguém.

Isso prova que a autonomia completa em data centers ainda é um sonho distante.

Confira o desempenho dos líderes no benchmark:

Claude Opus 4.7: 47% (Modo Raciocínio Adaptativo)

GPT-5.5: 46% (Configuração xhigh)

Qwen 3.7 M: Pontuação citada como parte do grupo de elite

O que esperar nos próximos meses

A parceria entre IBM e Artificial Analysis durou seis meses para criar esse teste.

A ideia é que a avaliação não pare apenas na manutenção de servidores.

O projeto vai expandir para outras áreas críticas de grandes empresas em breve.

Próximas áreas de avaliação:

FinOps: Gestão financeira de operações em nuvem e custos de TI.

CISO: Tarefas voltadas para segurança da informação e resposta a ataques.

Agentes Autônomos: Testes de execução de comandos sem interferência humana.

Por que isso importa agora

Para as empresas, esses dados servem como um balde de água fria necessário.

Muitas organizações planejam substituir equipes inteiras por agentes de IA rapidamente.

Mas o artigo técnico no Arxiv sugere que é preciso ter muita cautela.

> "O objetivo é avaliar modelos em tarefas de agentes, onde eles devem agir e não apenas falar."

A IA ainda precisa de supervisão humana constante em ambientes de missão crítica.

Um erro no diagnóstico de um servidor pode custar milhões de dólares em minutos.

O veredito

O cenário mostra que a inteligência artificial evoluiu, mas a TI corporativa é outro nível.

Atingir 47% de acerto em problemas complexos é um começo, mas não é suficiente.

O futuro da tecnologia será híbrido, com humanos validando cada passo da máquina.

Não é questão de se a IA vai ajudar, mas de quando ela será confiável.

Qual dessas falhas de IA você acha mais perigosa para uma empresa hoje?